Vergleichende Linguistik - statistische Verfahren

El Quijote · 13. Okt. 2015

Augusto schrieb:
Die Verwandschaft pez-piscis sehe ich schon, direkte Herleitbarkeit aber nicht. Dafür haben mir zu viele westindogermanische Sprachen das "-c" bzw. "-k" nicht konserviert: Ndl. vis, frz. poisson, Langue d'Oc peys, Friaul. pes, rumän. peSte u.a.m. Zudem haben wir ja nicht nur lit. zuvis, sondern auch ngr. Psira.

Dabei lässt sich pez sehr sauber von piscis ableiten.
Lateinisches -c- vor -e- und -i- (piscis!) wird regelmäßig von /k/ zu /ts/. Das setzt sich im Italienischen als /tʃ/, im Französischen als /s/ und im Spanischen als /θ/(graphische realisierung als -c- oder -z-) fort.

Sepiola · 13. Okt. 2015

Augusto schrieb:
Respekt vor dem "Gastgeber"

An Respekt gegenüber dem Gastgeber fehlt es mir nicht.

Die Frage nach dem Respekt vor dem Gastgeber ist an den zu richten, der die Tische des Gastgebers dazu missbraucht, um tonnenweise unsortierten Müll abzuladen.

Augusto schrieb:
Fundierte methodische Kritik wird weiterhin geschätzt, aber über den Punkt der Grundatzdiskussion sind wir nun wirklich hinaus.
Solche werde ich in Zukunft ignorieren.

Du hast doch schon bisher alle grundsätzlichen methodischen Hinweise ignoriert. Wir sind immer noch am selben Punkt wie schon Ende September 2014:

El Quijote schrieb:
... der werte Kollege wollte damit dezent darauf hinweisen, dass es keine Methode ist, eine Silbe krampfhaft rund um die Welt zu suchen und zu behaupten, dass sie überall denselben Ursprung hat. ...

Sepiola · 13. Okt. 2015

El Quijote schrieb:
Mich würde mal interessieren, wie nah oder entfernt nach dem ASJP-Tool sich
foie und higado
stehen.

Das Tool funktioniert sehr einfach:
"Die LD ist die minimale Anzahl an Schritten, die nötig ist, um ein Wort in ein anderes zu transformieren; die drei möglichen Schritte sind Einfügung, Substitution und Löschung.
...
Um Unterschiede in der Wortlänge zu korrigieren, wird die LD anschließend durch die Anzahl der Segmente des längeren Wortes dividiert."

Als Segmente zählen in der Regel Buchstaben. Die Wörter werden nach einer einfachen phonetischen Schrift transkribiert.

Das wäre im vorliegenden Beispiel:

fw~a (das ~ signalisiert, dass f und w als ein Segment gezählt werden.)
igado

Also sind folgende Schritte nötig um von fw~a zu igado zu gelangen:
1. Hinzufügung von i
2. Substitution von fw durch g
3. Hinzufügung von d
4. Hinzufügung von o

4 (Schritte) geteilt durch 6 (Segmente des längeren Worts) ergibt eine Distanz von 0,67.

El Quijote · 14. Okt. 2015

Und was bedeutet dieser Wert 0,67. Suggeriert der Nähe oder Entfernung?

Sepiola · 14. Okt. 2015

El Quijote schrieb:
Und was bedeutet dieser Wert 0,67. Suggeriert der Nähe oder Entfernung?

Eher Entfernung als Nähe.

0 bedeutet "identisch", 1 bedeutet größtmögliche Distanz.

"ich" (yo - j3): 1 - keine Ähnlichkeit
"kommen" (veni - v3ni): 0,25 - ziemlich ähnlich
"neu" (nuevo - nuvo): 0,2 - noch ähnlicher

Das Verfahren ist natürlich beim Vergleich einzelner Wortpaare völlig sinnlos; erst im größeren Maßstab können sich statistisch interessante Werte ergeben.

Der Vergleich einer 40er-Wortliste zwischen Französisch und Spanisch ergibt einen Wert von 0,587351207281.
http://strauss.sfs.uni-tuebingen.de:8080/lang/french/spanish/

Was für sich genommen aber auch noch nicht viel besagt, außer vielleicht dass die Übereinstimmungen höher sind, als sie bei reinem Zufall zu erwarten wären.

Erst im größeren Sprachvergleich fangen die Zahlen an, interessant zu werden.

http://strauss.sfs.uni-tuebingen.de:8080/lang/french/

0,3 bis 0,5: auf dem Französischen basierende Kreolsprachen und relativ benachbarte Dialekte/Sprachen
0,5 bis 0,7: weitere romanische Sprachen, auf dem Romanischen basierende Kunstsprachen, mit Michif das seltene Paradebeispiel einer Mischsprache.
0,7 bis 0,75: weitere indoeuropäische Sprachen
ab 0,75 fängt es an, durcheinanderzugehen: Die Distanzen zu entfernten Verwandten der IE-Sprachfamilie sind nicht mehr von Distanzen zu Einzelsprachen fremder Sprachfamilien zu unterscheiden.

Die einzelnen Distanzen sind aber sehr mit Vorsicht zu genießen, Rumänisch-Italienisch hat den sagenhaft niedrigen Wert von 0.194029415654!

El Quijote · 14. Okt. 2015

Sepiola schrieb:
Das wäre im vorliegenden Beispiel:

fw~a (das ~ signalisiert, dass f und w als ein Segment gezählt werden.)
igado

Also sind folgende Schritte nötig um von fw~a zu igado zu gelangen:
1. Hinzufügung von i
2. Substitution von fw durch g
3. Hinzufügung von d
4. Hinzufügung von o

Du wirst wissen, dass der historische Entwicklungsprozess anders verlief. Von Hinzufügungen kann nicht die Rede sein, diese kann man nur ohne sprachgeschichtliche Kenntnis und bei rein synchronem Material postulieren:

higado/foie (span./frz. 'Leber') ist wie pescado eigentlich ein Partizip: Ficatum. Dieses Partizip wurde zunächst adjektivisch verwendet, denn es bedeutet 'gefeigt' und war das Adjektiv zu iecur: Iecur ficatum = 'gefeigte Leber' - dahinter steckt eine strikte Feigendiät für Gänse -, iecur fiel irgendwann weg und ficatum blieb übrig, was mit der Substantivierung des Adjektivs gleichbedeutend war.
Die Fortentwicklungen von ficatum bezeichnen im Übrigen alle Lebern, nicht nur Gänselebern oder Lebern, die auf dem Teller landen, auch die menschliche Leber.

1.) Iberoromanische Sprachen
Aragonesisch: figado
Asturisch: fégadu
Galicisch-Portugiesisch: fígado
Spanisch: higado

2.) Brückensprache Ibero- und Galloromanisch
Okzitanisch-Katalanisch: fetge

3.) Galloromanische Sprachen
Französisch: foie
Walonisch: foete

4.) Italoromanische Sprachen
Italienisch: fegato
Lombardisch: fidegh
Venezianisch: figà
Sizilianisch: fìcatu

5.) Balkanromanische Sprachen
Rumänisch: ficat
6.) Nichtromanische Sprachen, die das Wort entlehnten:Maltesisch- eine eigentlich arabische Sprache, mit starkem italienischenEinfluss: Fwied

Im Französischen und den meisten anderen romanischen Sprachen ist der f-Anlaut von ficatum erhalten. Lediglich Spanisch hat - aber das ist typisch für's Spanische - das f zu h gewandelt, welches nicht mehr ausgesprochen aber eben noch geschrieben wird. Vgl. foeniculum > hinojo, forno > horno, fabulari > hablar etc.
In den iberoromanischen Sprachen wurden die harten Okklusive p-t-k zu den weichen Okklusiven b-d-g sonorisiert/lenisiert, genau das findet sich in allen Beispielen wieder, außer evtl. im Katalanischen (fetge). Hier wäre zu klären, ob es sich um eine Metathese handelt (Vertauschung von t und g/k) oder um die graphische Realisierung eines bestimmten Lauts, das t also nichtetymologisch motiviert.
Im Französischen ist die Lenisierung der Okklusive so weit gegangen, dass sie ganz verschwunden sind. Im Wallonischen dagegen wurde zwar das k lenisiert und verschwand dann ganz, das t aber blieb unsonorisiert erhalten (oder wurde nach Sonorisierung wieder entsonorisiert, das gibt das synchrone Material nicht her).

In den norditalienischen Sprachen ist die Sonorisierung bzw. Lenisierung voll vollzogen (fidegh, figà) (mit eindeutiger Metathese im Lombardischen), im Italienischen selbst nur halbwegs (fegato) und im Sizilianischen (fìcatu) gar nicht, welches in dieser Beziehung mit dem Rumänischen (ficat) Ähnlichkeiten aufweist.

Dagegen - unter der Voraussetzung einer nicht eigenständigen Entwicklung im Maltesischen - erinnert die maltesische Form fwied weniger an italienische Formen als vielmehr an iberoromanische.

El Quijote · 14. Okt. 2015

El Quijote schrieb:
6.) Nichtromanische Sprachen, die das Wort entlehnten: Maltesisch- eine eigentlich arabische Sprache, mit starkem italienischen Einfluss: Fwied
[...]
Dagegen - unter der Voraussetzung einer nicht eigenständigen Entwicklung im Maltesischen - erinnert die maltesische Form fwied weniger an italienische Formen als vielmehr an iberoromanische.

Laut dem englischen Wiktionary stammt das Malti-Wort fwied allerdings nicht, obwohl es 'Leber' bedeutet, vom romanischen Wort, sondern vom arabischen fuʾād, Pl. ifwda, was im Arabischen soviel wie 'Herz' bedeutet (ich kannte da bisher nur qalb). Vielleicht eine Interferenz aus dem Arabischen und dem Romanischen, immerhin trägt das Romanische ja zu 40 - 55 % (dazu gibt es unterschiedliche Erhebungen/Schätzungen) zum maltesischen Lexikon bei.

Ingeborg · 14. Okt. 2015

El Quijote schrieb:
Laut dem englischen Wiktionary stammt das Malti-Wort fwied allerdings nicht, obwohl es 'Leber' bedeutet, vom romanischen Wort, sondern vom arabischen fuʾād, Pl. ifwda, was im Arabischen soviel wie 'Herz' bedeutet (ich kannte da bisher nur qalb). Vielleicht eine Interferenz aus dem Arabischen und dem Romanischen, immerhin trägt das Romanische ja zu 40 - 55 % (dazu gibt es unterschiedliche Erhebungen/Schätzungen) zum maltesischen Lexikon bei.

Ich kannte auch nur /qalb/, aber das Malti ist ja sozus aus dem Sizilianisch-Arabischen entstanden, aufgrund sizilianischer Einwanderung nach Malta (ich meine, 10./11. Jhdt). Ab dem 13./14. Jhdt war Malti dann vom Kontakt zu anderen arabischen Sprachen ziemlich abgeschnitten. Daher kann sich im Malti ein älterer Wortschatz erhalten und einzelne Worte in anderen arabischen Sprachen/Dialekten eine Bedeutungsänderung erfahren haben, die das Malti somit nicht mitgemacht hat.

Lafayette II. · 14. Okt. 2015

El Quijote schrieb:
[....]

Leider kann ich dir gerade keinen Grünen geben, vielen Dank für den sehr interessanten Post! ich finde es fazinierend, wie sich der Entwicklungsprozess des Worts "Leber" vollzogen hat. Aber ist es erklärbar, warum diese doch nicht gerade offensichtliche Entwicklung des Wortes sich in allen romanischen Sprachen vollzogen hat?

El Quijote · 14. Okt. 2015

Ingeborg schrieb:
Ich kannte auch nur /qalb/, aber das Malti ist ja sozus aus dem Sizilianisch-Arabischen entstanden, aufgrund sizilianischer Einwanderung nach Malta (ich meine, 10./11. Jhdt). Ab dem 13./14. Jhdt war Malti dann vom Kontakt zu anderen arabischen Sprachen ziemlich abgeschnitten. Daher kann sich im Malti ein älterer Wortschatz erhalten und einzelne Worte in anderen arabischen Sprachen/Dialekten eine Bedeutungsänderung erfahren haben, die das Malti somit nicht mitgemacht hat.

Ich hab natürlich, nachdem ich Wiktionary konsultiert habe, gleich auch Lessan konsultiert, das bringt für Herz neben qalb eben auch fuʾād.

Lafayette II. schrieb:
Ich finde es fazinierend, wie sich der Entwicklungsprozess des Worts "Leber" vollzogen hat. Aber ist es erklärbar, warum diese doch nicht gerade offensichtliche Entwicklung des Wortes sich in allen romanischen Sprachen vollzogen hat?

Offensichtlich war das Wort ficatum so sehr an iecur gebunden, dass es schon im Vulgärlateinischen iecur ersetzte und daher die Leber bereits vor der Trennung der romanischen Sprachen exklusiv bezeichnete.

Es ist ja nicht die Hoch- oder Gelehrtensprache, die sich fortsetzt, sondern die Volkssprache. Beispiel: Lateinisch 'Pferd' ist equus. Das setzt sich aber in vielen romanischen Sprache nicht fort, sondern der 'Klepper': caballus > cheval, caballo, cavallo.

silesia · 14. Okt. 2015

Beiträge zu statistischen Verfahren der vergleichenden Linguistik wurden in ein separates Thema abgespalten, aus diesem Thema:

http://www.geschichtsforum.de/f22/fr-he-globalisierung-51254/

Sepiola · 14. Okt. 2015

Sepiola schrieb:
fw~a (das ~ signalisiert, dass f und w als ein Segment gezählt werden.)
igado

Also sind folgende Schritte nötig um von fw~a zu igado zu gelangen:
1. Hinzufügung von i
2. Substitution von fw durch g
3. Hinzufügung von d
4. Hinzufügung von o

4 (Schritte) geteilt durch 6 (Segmente des längeren Worts) ergibt eine Distanz von 0,67.

Muss natürlich heißen: 4 geteilt durch 5.
Ich hatte ursprünglich mit "higado" gerechnet, bin dann aber auf die ASJP-Transkription "igado" umgestiegen.

Die Distanz ist also 0,8.

El Quijote schrieb:
Du wirst wissen, dass der historische Entwicklungsprozess anders verlief. Von Hinzufügungen kann nicht die Rede sein, diese kann man nur ohne sprachgeschichtliche Kenntnis und bei rein synchronem Material postulieren:

Schon klar.

Das Tool misst die Ähnlichkeit zweier Wörter, sonst nichts.

Es werden auch nicht eigentlich Hinzufügungen postuliert - man kann die Schritte ja auch von igado zu fw~a beschreiben, dann sind es 3 Löschungen statt 3 Hinzufügungen.

Ob das Material synchron ist oder nicht, ist dem Tool egal.

Hab mal spaßeshalber ein paar Leber-Wörter verglichen, gleichfarbige Wörter sind echte Kognaten:

Spanisch igado - Neugriechisch ipar (0,6)
Althochdeutsch lebara - Latein yekur (0,67)
Neugriechisch ipar - Althochdeutsch lebara (0,67)
Neugriechisch ipar - Französisch fw~a (0,75)
Neugriechisch ipar - Latein yekur (0,8)
Spanisch igado - Französisch fw~a (0,8)
Französisch fw~a - Althochdeutsch lebara (0,83)
Spanisch igado - Althochdeutsch lebara (0,83)
Französisch fw~a - Latein yekur (1)
Spanisch igado - Latein yekur (1)

Sepiola · 15. Okt. 2015

El Quijote schrieb:
Was Pelle angeht, müsste man mal schauen, wann dieses Wort im Deutschen nachweisbar ist, denn es scheint eher ein rezentes* Lehnwort zu sein (nicht lautverschoben - oder es ist niederdeutsch), als ein altes Lehnwort oder gar ein Erbwort.

Pelle f. ‘dünne Haut, Fruchtschale, Wursthaut, Schale der gekochten Kartoffel’. Mnl. pelle ‘Vlies, wolliges Fell’ (nl. pel ‘Schale, Haut, Fell’) beruht auf einer zur Römerzeit erfolgten Entlehnung aus lat. pellis ‘Fell, Haut, Pelz’ (s. Fell, Pelz). Das Substantiv verbreitet sich in den oben genannten Bedeutungen durch niederländische Siedler in der Mark, Nordthüringen, gelangt von da ins Omd., ins Mecklenb. und Balt. Es ist zunächst wohl ein Wort der Umgangssprache, denn literarische Bezeugung setzt erst im 18. Jh. ein. Dazu die Wendungen jmdm. auf die Pelle rücken, auf der Pelle sitzen, nicht von der Pelle gehen (19. Jh.). – Vom Substantiv abgeleitet pellen Vb. ‘schälen’ (Ende 18. Jh.). Pellkartoffel f. (19. Jh.).

Pelle ? Digitales Wörterbuch der deutschen Sprache

Pelz m. ‘Fell, Haarkleid (von Tieren), für Kleidungsstücke bearbeitetes Tierfell’, ahd. pelliʒ (10. Jh.), mhd. bellīʒ, belleʒ, belz, pelz, mnd. mnl. nl. pels, entlehnt aus spätlat. pellīcium ‘Pelzwerk, -mantel’, dem substantivierten Neutrum von spätlat. pellīcius ‘aus Fellen gemacht’ (zu lat. pellis ‘Fell, Haut, Pelz’, s. Fell, Pelle).

Pelz ? Digitales Wörterbuch der deutschen Sprache

dekumatland · 15. Okt. 2015

Augusto schrieb:
. Letztendlich werden wir auf mehr Hominiden-Funde, und Fortschritte in der physiognomischen Rekonstruktion hoffen müsse.

...hatte nicht schon Goethe die Lavater´sche Physiognomik zu Recht bespöttelt?

Augusto · 21. Okt. 2015

"ich mach hier nur noch meine Strophe fertig, pack meine sieben Sachen und dann werd ich .." (Fettes Brot: Jein)

Frisch raus (13.10.) die erste lexikostatistisch auf Basis des ASJP erstellende sprachfamilienübergreifende Korrespondenzanalyse (G. Jaeger, Tübingen):
Support for linguistic macrofamilies from weighted sequence alignment (Bald lesen, ist jetzt noch "open for comment")
Jaeger hat an der Methode noch ziemlich gebastelt. Sie basiert zwar immer noch auf Levenshtien-Distanzen, jedoch wird auf die besten 1% Korrespondenzen ein statistisches Verfahren angewendet, daß die häufigsten Lautverschiebungen identifiziert. Ein auf dem Lautinventar der beiden jeweiligen Sprachen basierendes Meßverfahren soll dabei sicher stellen, daß keine "Zufälle" reinrutschen.

The similarity threshold used is rather strict. To illustrate, the only probable cognate pairs between English and German that were kept during the last iteration are fiS/fiS “fish,” laus/laus “louse,” bl3d/blut “blood,” horn/horn “horn,” brest/brust “breast,” liv3r/leb3r “liver,” star/StErn “star,” wat3r/vas3r “water,” and ful/fol “full.”

Mit den als "unschädlich" ermittelten Lautverschiebungen geht es wieder an die Kognatensuche über alle Vergleichssprachen, der Zyklus wird insgesamt 10 mal wiederholt. Was dabei rauskommt, ist eine statistisch ermittelte Matrix von Lautverschiebungen, die natürlich feiner ist, sich aber im Endeffekt gar nicht so sehr von meinen "Modifikationen" unterscheidet: Vokalgleicheit und - austausch wird niedriger bewertet als solcher von Konsonanten, bei diesen gibt es "unschädliche" Wechsel wie etwa "d/t", "g/k/x/X/h" etc.

To illustrate this notion, consider the word pairs hant/hEnd (German and English for “hand”) vs. hant/mano (German and Spanish for “hand”). In both cases, we find two matches and two mismatches in the optimal alignment. However, the mismatches in the first pair (a/E, t/d) carry little weight, resulting in an overall highly positive score of 4.80. In the second pair, the mismatches (h/m, t/o) carry large weight; the overall PMI score is [FONT=MathJax_Main-Web]−[/FONT][FONT=MathJax_Main-Web]11.28[/FONT] .

Diese Methode bzw. die so ermittelte Matrix zur Bewertung von Lautverschiebungen liegt übrigens auch dem "Distance Mapping Tool" auf der EVOLAEMP-Homepage zu Grunde. Wer da selbst rechnen möchte - die Matrix gibt es in den Supp.Mat zum Downlaod (.csv).
Jaeger hat die Methode auf alle eurasischen Sprachen mit Ausnahme der afro-asiatischen Sprachen angewandt (letzgenannte kommen vermutlich in der Afrika-Ausgabe, die auch schon gerechnet sein dürfte.) Der auf dieser Basis ermittlete phylogenetische Baum wurde mit der "expert opinion" in Form der Sprachklassifizierung bei Glottolog 2.6 - verglichen. Für 95% bestand Übereinstimmung, und alle "mismatches" traten innerhalb der jeweiligen Familen auf.
Als Hauptursache für "mismatches" entpuppten sich "rogue taxa", d.h. Sprachen mit lexikalischer Inkonsistenz. Einen dieser Fälle, nämlich Englisch, diskutiert Jaeger ausführlich:

An example of data containing conflicting information is provided by the English word list. It contains the entry maunt3n “mountain,” which is similar to its counterpart in the Romance languages, but not in the other Germanic languages, whereas most other entries for English are more similar to their Germanic counterparts than to their Romance counterparts. (..)
Scandinavian influence on English (reflected in loans; e.g., “skin,” “to die”) obscures its West Germanic affiliation, although its alpha value remains high at 0.86. As a result, English (alongside with Scots) appears as a sister clade of North Germanic in the phylogenetic tree, but this connection has a low confidence of [FONT=MathJax_Main-Web]74.2[/FONT][FONT=MathJax_Main-Web]%[/FONT] (Fig. 2), whereas both West Germanic and North Germanic proper have [FONT=MathJax_Main-Web]100[/FONT][FONT=MathJax_Main-Web]%[/FONT] confidence values. Therefore, English would be considered as unaffiliated within the Germanic subfamily. Here, the effect of language contact blurs the phylogenetic signal for the borrowing language, whereas the position of its genetic relatives and the borrowing source are not affected.

Prinzipiell wäre dies Problem zwar durch Erstellen eines phylogenischen Netzes (also Zulassung späteren Sprachkontakts) ausschaltbar, aber der dafür erforderliche Rechenaufwand bei über 1.100 berücksichtigten Sprachen ("Ecken" im Netzwerk) hätte vermutlich die Rechner der Unit Tübingen längere Zeit lahmgelegt. Stattdessen verwendet Jaeger zur Identifikation von "rögue taxa" Cronbachs Alpha, eine ursprünglich von den Sozialwissenschaften entwicklete Methode zur Konsistenzprüfung von Antworten auf Meinungsumfragen. Dies führt zur Elimination von 58 "rogue taxa" (v.a. isolierte Sprachen, daneben u.a. Griechisch, Englisch nimmt trotz der vorbeschriebenen Probleme jedoch diese Hürde).

The resulting phylogenetic tree (Dataset S2) is again in excellent agreement with the Glottolog expert classification (generalized quartet distance = 0.005, all mismatches occur within language families). The confidence values for the Glottolog families is invariably high [Indo-European, 0.967*; Sino-Tibetan, 0.983; Uralic, 0.985**; and all other families, 1.000]. (..)
The fact that the automatically generated tree is in such good agreement with the Glottolog classification demonstrates that this method is sensitive to common descent.

Die familienübergreifenen Ergebnisse sind ein ziemlicher Hammer; sie zeigen die folgenden Makrofamilien:

Indoeuropäisch - Chukotko-Kamschatkisch (p=0,969 - zum Vergleich: Keltische Sprachen als Teil der indoeurop. Sprachen 0,967). Geht quer zu fast allen bisherigen Vorschlägen, einschl. "Nostratisch". Allerdings haben Pagel e.a. in der Analyse zu Ultraconserved Words diese Beziehung, sogar noch erweitert um von Jaeger nicht berücksichtigte Inuit-Sprachen, auch schon angerissen.
Kern-Eurasisch: Die beiden vorgenannten, plus Uralisch, Nivkh und Yukagir (p=0,999). Nicht ganz neu, zuletzt diskutiert von Kortland (2010).
Altaisch: Mongolisch plus Tungusisch sicher (p=1,00), Turksprachen dazu denkbar, aber schwächer gesichert (p=0,908).
Eurasisch: Alle vorgenannten zusammen (p=0,994). Enthält, im Gegensatz zur "nostratischen" Theorie, allerdings nicht Dravidisch.
Austroasiatisch -Japanisch - Ainu (p=0,968): Schon länger in der Diskussion. Wird motiviert durch die maritime "Südroute" der ostasiatischen Kolonisation, mag aber auch spätere Kulturkontakte (Jomon-Kultur) bzw. deren Substrat in Japanisch wiederspiegeln.
Auf niedrigerem Niveau schließt sich Dravidisch (p=0,934) an, dessen austronesisches Substrat schon länger diskutiert wird, und daß darüber hinaus in direktem Sprachkontakt mit in Indien gesprochen austroas. Sprachen (Munda, Santali) steht.
Austronesisch - TaiKadai (p=1,000): Schon länger in der Diskussion.
Sino-tibetisch - Hmong-Mien: Hoch signifikant auf dem Makro-Level (p=1,000). Die interne Konsistenz der teilweise in Frage gestellten sino-tibetischen Familie scheint hier das größere Problem - für die öfter problematisierten Kuki-Naga-Sprachen (West-Myanmar/ östl. Himalaya) etwa ergibt sich nur p=0,882, für die Karen-Sprachen (SO-Myanmar, NW Thailand) p=0,928. Jaeger diskutiert relativ ausführlich mögliche, im ASJP nicht markierte Entlehnungen, und läßt letztendlich offen, wie weit hier genetische Beziehung oder ein Kontakt- (Sprachbund-)Phänomen vorliegt.

Für eine "austrische" Makrofamilie, die die drei letztgennanten vereint, liefert die um "rogue taxa" bereigte Analyse keine Anzeichen (die Analyse mit ihnen jedoch schon).
Jaeger faßt zusammen:

There is no principled way to factor common inheritance from diffusion with this method. To tackle such questions, a computational and statistical approach requires more linguistically informed stochastic models that explicitly address such issues as cognate recognition, identification of regular sound laws, protoform reconstruction, and competing processes of inheritance and diffusion. Efforts to this effect are already under way [i.e., for automatic cognate recognition and multiple word alignment (31, 32), for automatic protoform reconstruction and identification of sound laws (33, 34), and for an explicit model of lexical borrowing (35)]. The present work is designed to contribute to expanding this agenda beyond the level of individual language families.

Wo er Recht hat, hat er Recht. Allerdings braucht es, wo keine Anzeichen rezenten Sprachkontakts vorliegen, wie etwa im Fall Indoeuropäisch - Chukotko-Kamschatkisch (der Baum sortiert Keltisch, nicht etwa Russisch, an die Schnittstelle ein), keine (automatisierte) komparative Analyse, um den Befund als (prä-)historische Vertiefung lohnend zur Kenntnis zu nehmen.

Der Baum einschließlich der "rogue taxa" hält noch diverse weitere Überraschungen bereit. Am Wochenende war er noch online (Supp. Dataset S01), heute aber nicht mehr. Da ging u.a. so einiges zwischen kaukasischen Sprachen und Dravidisch, mit Burushaki und anderen südasiatischen Isolaten als Brücke, hin und her, nur habe ich mir die Details leider nicht gemerkt. Was ich mir gemerkt habe, war, daß die "rogue taxa" Scotch Gaelic, Manx und Gheg-(Nord-)Albanisch ein Unterfamilie gemeinsam in Irisch und Tosk-Albanisch bildeten (p=1,000), während sich Bretonisch und Walisisch mit niedrieger Signifikanz bei den romanischen Sprachen neben Französisch einsortierten. "Rogue"? Oder war es doch voreilig, den Pan-Illyrismus völlig von der Tagesordnung zu nehmen.

* Neben Englisch und Keltisch (s.o.) schwach unterstützt u.a. Elsässisch/ Berner Deutsch (Salü), Korsisch, Slovenisch, Ossetisch, Farsi, einige Pashtu-Varianten, Konkan, Maharati, Gujarati, und diverse Roma-Dialekte.
** Ausreißer v.a. Finnisch/Estnisch etc., und Mordwinisch.

Das wars. Tschüß und machts gut!

El Quijote · 10. Nov. 2015

Sepiola schrieb:
Im World Language Tree sitzt das Rumänische auf demselben Ast wie das Italienische. Das ist nicht ganz falsch, das Rumänische ähnelt dem Italienischen mehr als den anderen romanischen Sprachen. Aber so nah ist die Verwandtschaft nicht, wie der Baum suggeriert.

Auf der anderen Seite wird das Katalanische mit dem Friaulischen zusammengruppiert, obwohl es in Wirklichkeit eine Brücke zwischen den iberoromanischen und galloromanischen Sprachen bildet.

Und das Portugiesische, eine Gruppe sekundärer Dialekte des Galicischen, wird auf einem eigenen Ast gezeigt, wohingegen das Galicische als dem Aragonesischen am nächsten verwandt angezeigt werden soll.

silesia · 02. Feb. 2017

Ein neuer Aufsatz aus der PLOS-ONE:

List/Greenhill/Gray: The Potential of Automatic Word Comparison for Historical Linguistics
The Potential of Automatic Word Comparison for Historical Linguistics

Abstract:

The amount of data from languages spoken all over the world is rapidly increasing. Traditional manual methods in historical linguistics need to face the challenges brought by this influx of data. Automatic approaches to word comparison could provide invaluable help to pre-analyze data which can be later enhanced by experts. In this way, computational approaches can take care of the repetitive and schematic tasks leaving experts to concentrate on answering interesting questions. Here we test the potential of automatic methods to detect etymologically related words (cognates) in cross-linguistic data. Using a newly compiled database of expert cognate judgments across five different language families, we compare how well different automatic approaches distinguish related from unrelated words. Our results show that automatic methods can identify cognates with a very high degree of accuracy, reaching 89% for the best-performing method Infomap. We identify the specific strengths and weaknesses of these different methods and point to major challenges for future approaches. Current automatic approaches for cognate detection—although not perfect—could become an important component of future research in historical linguistics.

silesia · 17. Okt. 2018

Und zwei weitere aus der Nature vom Oktober 2018:

Cross-Linguistic Data Formats, advancing data sharing and re-use in comparative linguistics
Global-scale phylogenetic linguistic inference from lexical resources

El Quijote · 08. Jan. 2024

Wie nah stehen sich Englisch und Deutsch?

Ich habe gerade bei der Lektüre eines Zeitungsartikels etwas gemacht, was ich sonst nie mache: Einen Werbeartikel angklickt und bin dabei auf der Website eines durch seine Werbereichweiten bekannten Anbieters von Sprachunterricht gekommen.

According to the Foreign Service Institute, here’s a rough guide to the time required to reach a basic conversational level:

Category I: Languages closely related to English (e.g., Spanish, French, Italian) — 24-30 weeks or 600-750 hours
Category II: Languages with significant linguistic differences from English (e.g., German) — 36 weeks or 900 hours
Category III: Languages with considerable linguistic and/or cultural differences from English (e.g., Russian, Thai) — 44 weeks or 1,100 hours
Category IV: Languages with extreme linguistic and/or cultural differences from English (e.g., Arabic, Japanese, Chinese) — 88 weeks or 2,200 hours

Und auf der Seite des amerikanischen Außenministeriums befindet sich dies hier:

Category I Languages: 24-30 weeks (600-750 class hours)

Languages similar to English.

Danish (24 weeks) Dutch (24 weeks) French (30 weeks)
Italian (24 weeks) Norwegian (24 weeks) Portuguese (24 weeks)
Romanian (24 weeks) Spanish (30 weeks) Swedish (24 weeks)

Category II Languages: Approximately 36 weeks (900 class hours)

German Haitian Creole Indonesian
Malay Swahili

Category III Languages: Approximately 44 weeks (1100 class hours)

“Hard languages” – Languages with significant linguistic and/or cultural differences from English. This list is not exhaustive....

Von der Grammatik her ist das natürlich richtig. Deutsch ist im Bereich der Grammatik wesentlich konservativer als das Englische, das ja praktisch die Unterscheidungsmarker der Kasus vollkommen aufgegeben hat und in Bezug auf Genus und Numerus ebenfalls Abstriche gemacht hat (wie ist das eigentlich beim Niederländischen und den skandinavischen Sprachen? Die werden ja als einfacher eingestuft). Im Bereich der lautlichen Entwicklung ist das Deutsche vermutlich die innovativste der germanischen Sprachen (hochdeutsche Lautverschiebung). Bei dem bekannten Anbieter wird aber von closely related (also 'eng verbandelt') gesprochen und da finde ich es schon bemerkenswert, dass Deutsch in die Gruppe II einsortiert wird, wohingegen die romanischen Sprachen als enger verwandt einsortiert werden.
Was richtig ist, ist, dass durch den normannischen Einfluss auf das Englische dieses einen sehr hohen Anteil an romanischem Wortschatz aufweist, den wir im Deutschen so nicht haben oder doch noch eher als Fremdwortschatz oder bildungssprachlichen Wortschatz wahrnehmen. Deutsch in einer Gruppe mit dem Malayischen, dem Haitianischen Kreole, dem Indonesischen oder dem Swahili zu sehen (wobei Swahili angeblich eine einfach zu erlernende Sprache sei, wie ein Prof. mal behauptete - der kannte ein paar Worte Sawahili, aber ob er das sprach?), ist doch etwas irritierend.

muheijo · 08. Jan. 2024

Ich stolpere über Italienisch und Portugiesisch.
Das kann für einen Engländer/Amerikaner nicht gleich einfach sein wie die skandinavischen Sprachen, und Portugiesisch ist doch ähnlich wie Spanisch, was hier aber als schwerer eingestuft wird.

Vergleichende Linguistik - statistische Verfahren

Moderator

Aktives Mitglied

Aktives Mitglied

Moderator

Aktives Mitglied

Moderator

Moderator

Moderator

Aktives Mitglied

Moderator

Moderator

Aktives Mitglied

Aktives Mitglied

Aktives Mitglied

Aktives Mitglied

Anhänge

Moderator

Moderator

Moderator

Moderator

Aktives Mitglied

Wir schützen deine Privatsphäre