"ich mach hier nur noch meine Strophe fertig, pack meine sieben Sachen und dann werd ich .." (Fettes Brot: Jein)
Frisch raus (13.10.) die erste lexikostatistisch auf Basis des ASJP erstellende sprachfamilienübergreifende Korrespondenzanalyse (G. Jaeger, Tübingen):
Support for linguistic macrofamilies from weighted sequence alignment (
Bald lesen, ist jetzt noch "open for comment")
Jaeger hat an der Methode noch ziemlich gebastelt. Sie basiert zwar immer noch auf
Levenshtien-Distanzen, jedoch wird auf die besten 1% Korrespondenzen ein statistisches Verfahren angewendet, daß die häufigsten Lautverschiebungen identifiziert. Ein auf dem Lautinventar der beiden jeweiligen Sprachen basierendes Meßverfahren soll dabei sicher stellen, daß keine "Zufälle" reinrutschen.
The similarity threshold used is rather strict. To illustrate, the only probable cognate pairs between English and German that were kept during the last iteration are fiS/fiS “fish,” laus/laus “louse,” bl3d/blut “blood,” horn/horn “horn,” brest/brust “breast,” liv3r/leb3r “liver,” star/StErn “star,” wat3r/vas3r “water,” and ful/fol “full.”
Mit den als "unschädlich" ermittelten Lautverschiebungen geht es wieder an die Kognatensuche über alle Vergleichssprachen, der Zyklus wird insgesamt 10 mal wiederholt. Was dabei rauskommt, ist eine
statistisch ermittelte Matrix von Lautverschiebungen, die natürlich feiner ist, sich aber im Endeffekt gar nicht so sehr von meinen "Modifikationen" unterscheidet: Vokalgleicheit und - austausch wird niedriger bewertet als solcher von Konsonanten, bei diesen gibt es "unschädliche" Wechsel wie etwa "d/t", "g/k/x/X/h" etc.
To illustrate this notion, consider the word pairs hant/hEnd (German and English for “hand”) vs. hant/mano (German and Spanish for “hand”). In both cases, we find two matches and two mismatches in the optimal alignment. However, the mismatches in the first pair (a/E, t/d) carry little weight, resulting in an overall highly positive score of 4.80. In the second pair, the mismatches (h/m, t/o) carry large weight; the overall PMI score is [FONT=MathJax_Main-Web]−[/FONT][FONT=MathJax_Main-Web]11.28[/FONT] .
Diese Methode bzw. die so ermittelte Matrix zur Bewertung von Lautverschiebungen liegt übrigens auch dem "Distance Mapping Tool" auf der EVOLAEMP-Homepage zu Grunde. Wer da selbst rechnen möchte - die Matrix gibt es in den Supp.Mat zum Downlaod (.csv).
Jaeger hat die Methode auf
alle eurasischen Sprachen mit Ausnahme der afro-asiatischen Sprachen angewandt (letzgenannte kommen vermutlich in der Afrika-Ausgabe, die auch schon gerechnet sein dürfte.) Der auf dieser Basis ermittlete phylogenetische Baum wurde mit der "expert opinion" in Form der Sprachklassifizierung bei
Glottolog 2.6 - verglichen. Für 95% bestand Übereinstimmung, und alle "mismatches" traten innerhalb der jeweiligen Familen auf.
Als Hauptursache für "mismatches" entpuppten sich
"rogue taxa", d.h. Sprachen mit lexikalischer Inkonsistenz. Einen dieser Fälle, nämlich Englisch, diskutiert Jaeger ausführlich:
An example of data containing conflicting information is provided by the English word list. It contains the entry maunt3n “mountain,” which is similar to its counterpart in the Romance languages, but not in the other Germanic languages, whereas most other entries for English are more similar to their Germanic counterparts than to their Romance counterparts. (..)
Scandinavian influence on English (reflected in loans; e.g., “skin,” “to die”) obscures its West Germanic affiliation, although its alpha value remains high at 0.86. As a result, English (alongside with Scots) appears as a sister clade of North Germanic in the phylogenetic tree, but this connection has a low confidence of [FONT=MathJax_Main-Web]74.2[/FONT][FONT=MathJax_Main-Web]%[/FONT] (
Fig. 2), whereas both West Germanic and North Germanic proper have [FONT=MathJax_Main-Web]100[/FONT][FONT=MathJax_Main-Web]%[/FONT] confidence values. Therefore, English would be considered as unaffiliated within the Germanic subfamily. Here, the effect of language contact blurs the phylogenetic signal for the borrowing language, whereas the position of its genetic relatives and the borrowing source are not affected.
Prinzipiell wäre dies Problem zwar durch Erstellen eines phylogenischen Netzes (also Zulassung späteren Sprachkontakts) ausschaltbar, aber der dafür erforderliche Rechenaufwand bei über 1.100 berücksichtigten Sprachen ("Ecken" im Netzwerk) hätte vermutlich die Rechner der Unit Tübingen längere Zeit lahmgelegt. Stattdessen verwendet Jaeger zur Identifikation von "rögue taxa"
Cronbachs Alpha, eine ursprünglich von den Sozialwissenschaften entwicklete Methode zur Konsistenzprüfung von Antworten auf Meinungsumfragen. Dies führt zur Elimination von 58 "rogue taxa" (v.a. isolierte Sprachen, daneben u.a.
Griechisch, Englisch nimmt trotz der vorbeschriebenen Probleme jedoch diese Hürde).
The resulting phylogenetic tree (
Dataset S2) is again in excellent agreement with the Glottolog expert classification (generalized quartet distance = 0.005, all mismatches occur within language families). The confidence values for the Glottolog families is invariably high [Indo-European, 0.967*; Sino-Tibetan, 0.983; Uralic, 0.985**; and all other families, 1.000]. (..)
The fact that the automatically generated tree is in such good agreement with the Glottolog classification demonstrates that this method is sensitive to common descent.
Die familienübergreifenen Ergebnisse sind ein ziemlicher Hammer; sie zeigen die folgenden
Makrofamilien:
- Indoeuropäisch - Chukotko-Kamschatkisch (p=0,969 - zum Vergleich: Keltische Sprachen als Teil der indoeurop. Sprachen 0,967). Geht quer zu fast allen bisherigen Vorschlägen, einschl. "Nostratisch". Allerdings haben Pagel e.a. in der Analyse zu Ultraconserved Words diese Beziehung, sogar noch erweitert um von Jaeger nicht berücksichtigte Inuit-Sprachen, auch schon angerissen.
- Kern-Eurasisch: Die beiden vorgenannten, plus Uralisch, Nivkh und Yukagir (p=0,999). Nicht ganz neu, zuletzt diskutiert von Kortland (2010).
- Altaisch: Mongolisch plus Tungusisch sicher (p=1,00), Turksprachen dazu denkbar, aber schwächer gesichert (p=0,908).
- Eurasisch: Alle vorgenannten zusammen (p=0,994). Enthält, im Gegensatz zur "nostratischen" Theorie, allerdings nicht Dravidisch.
- Austroasiatisch -Japanisch - Ainu (p=0,968): Schon länger in der Diskussion. Wird motiviert durch die maritime "Südroute" der ostasiatischen Kolonisation, mag aber auch spätere Kulturkontakte (Jomon-Kultur) bzw. deren Substrat in Japanisch wiederspiegeln.
Auf niedrigerem Niveau schließt sich Dravidisch (p=0,934) an, dessen austronesisches Substrat schon länger diskutiert wird, und daß darüber hinaus in direktem Sprachkontakt mit in Indien gesprochen austroas. Sprachen (Munda, Santali) steht.
- Austronesisch - TaiKadai (p=1,000): Schon länger in der Diskussion.
- Sino-tibetisch - Hmong-Mien: Hoch signifikant auf dem Makro-Level (p=1,000). Die interne Konsistenz der teilweise in Frage gestellten sino-tibetischen Familie scheint hier das größere Problem - für die öfter problematisierten Kuki-Naga-Sprachen (West-Myanmar/ östl. Himalaya) etwa ergibt sich nur p=0,882, für die Karen-Sprachen (SO-Myanmar, NW Thailand) p=0,928. Jaeger diskutiert relativ ausführlich mögliche, im ASJP nicht markierte Entlehnungen, und läßt letztendlich offen, wie weit hier genetische Beziehung oder ein Kontakt- (Sprachbund-)Phänomen vorliegt.
Für eine "austrische" Makrofamilie, die die drei letztgennanten vereint, liefert die um "rogue taxa" bereigte Analyse keine Anzeichen (die Analyse mit ihnen jedoch schon).
Jaeger faßt zusammen:
There is no principled way to factor common inheritance from diffusion with this method. To tackle such questions, a computational and statistical approach requires more linguistically informed stochastic models that explicitly address such issues as cognate recognition, identification of regular sound laws, protoform reconstruction, and competing processes of inheritance and diffusion. Efforts to this effect are already under way [i.e., for automatic cognate recognition and multiple word alignment (
31,
32), for automatic protoform reconstruction and identification of sound laws (
33,
34), and for an explicit model of lexical borrowing (
35)]. The present work is designed to contribute to expanding this agenda beyond the level of individual language families.
Wo er Recht hat, hat er Recht. Allerdings braucht es, wo keine Anzeichen rezenten Sprachkontakts vorliegen, wie etwa im Fall Indoeuropäisch - Chukotko-Kamschatkisch (der Baum sortiert Keltisch, nicht etwa Russisch, an die Schnittstelle ein), keine (automatisierte) komparative Analyse, um den Befund als (prä-)historische Vertiefung lohnend zur Kenntnis zu nehmen.
Der Baum einschließlich der "rogue taxa" hält noch diverse weitere Überraschungen bereit. Am Wochenende war er noch online (Supp. Dataset S01), heute aber nicht mehr. Da ging u.a. so einiges zwischen kaukasischen Sprachen und Dravidisch, mit Burushaki und anderen südasiatischen Isolaten als Brücke, hin und her, nur habe ich mir die Details leider nicht gemerkt. Was ich mir gemerkt habe, war, daß die "rogue taxa" Scotch Gaelic, Manx und Gheg-(Nord-)Albanisch ein Unterfamilie gemeinsam in Irisch und Tosk-Albanisch bildeten (p=1,000), während sich Bretonisch und Walisisch mit niedrieger Signifikanz bei den romanischen Sprachen neben Französisch einsortierten. "Rogue"? Oder war es doch voreilig, den Pan-Illyrismus völlig von der Tagesordnung zu nehmen.
* Neben Englisch und Keltisch (s.o.) schwach unterstützt u.a. Elsässisch/ Berner Deutsch (Salü), Korsisch, Slovenisch, Ossetisch, Farsi, einige Pashtu-Varianten, Konkan, Maharati, Gujarati, und diverse Roma-Dialekte.
** Ausreißer v.a. Finnisch/Estnisch etc., und Mordwinisch.
Das wars. Tschüß und machts gut!