Grundwortschätze wollen Lernenden jene Lexeme einer Standardsprache näher bringen, die dazu befähigen, sich möglichst schnell mit den Angehörigen einer Sprachgemeinschaft, die Trägerin der zu erlernenden Fremdsprache ist, zu verständigen. Doch Lernerinnen und Lernern können nicht alle Wörter einer Sprache erlernen, Lehrwerke und Grundwortschätze müssen eine Auswahl treffen. Das Kriterium, das bei der Auswahl fast immer implizit zur Begründung dient, ist die Wahrscheinlichkeit, mit der ein Lerner bzw. eine Lernerin mit einem Wort in Kontakt kommt. Doch wie bestimmt man die Wahrscheinlichkeit, mit der man mit einem Wort einer Fremdsprache konfrontiert wird?
Der kommunikativ-pragmatische Ansatz geht von in Sprachgemeinschaften typischen kommunikativen Situationen und Sprechintentionen aus, denen dann die sprachlichen Mittel – und somit auch der Wortschatz – zugeordnet werden können. So plausibel dieser Ansatz auch erscheint, so wenig empirisch fundiert ist er: er beruht nicht auf einer Erhebung oder gar Quantifizierung des Sprachgebrauchs in typischen Alltagssituationen. Der Situationsbegriff ist theoretisch ebenso wenig hinreichend bestimmt wie das Alltagskonzept. Zudem sind die sprachlichen Selektionsverfahren meist intransparent.
Der frequenzorientierte Ansatz bestimmt die Wahrscheinlichkeit, mit der man mit einem Wort einer Fremdsprache konfrontiert wird, indem er große Korpora auf die Häufigkeit des Auftretens von Lexemen hin untersucht. Die vorhandenen Korpora freilich sind meist sehr selektiv im Hinblick auf die von ihnen abgedeckten Kommunikationsbereiche und bilden die gesprochene Sprache nur äußerst fragmentarisch ab. Zudem kann man am frequenzorientierten Ansatz kritisieren, dass Häufigkeit und Wichtigkeit von Lexemen verkürzend gleichgesetzt wird und dass wegen der starken Formbezogenheit Bedeutungsgesichtspunkte und die kommunikative Funktion von Wörtern generell vernachlässigt wird. Gleichwohl haben frequenzorientierte Ansätze den Vorteil, dass sie überhaupt eine empirische Grundlage haben, ihre Ergebnisse somit reproduzierbar sein müssen und somit die Möglichkeit eröffnen, intersubjektiv nachvollziehbare Maßstäbe in die Wortschatzselektion einzubringen.
Der lexikographische Ansatz schließlich nimmt eine Metaperspektive ein: Auf der Basis von vorhandenen Wörterbüchern oder Wortschatzsammlungen wird versucht, einen Kern bzw. ein Zentrum zu herauszudestillieren.
Der auf www.basic-german.com publizierte Kernwortschatz des Deutschen wurde frequenzorientiert berechnet.
Wir verstehen frequenzorientiert allgemeiner im Sinn von "die Distribution von Lexemen / lexikalischen Morphemen betreffend" und differenzieren den Frequenzaspekt in die Dimensionen (1) Häufigkeit, (2) Stabilität und (3) Produktivität.
Datengeleitet ist unser Ansatz, weil wir nicht Hypothesen über die Häufigkeit, Stabilität und Produktivität von Lexemen anhand von großen Korpora getestet haben, sondern für jedes lexikalische Morphem induktiv mehrere Kennzahlen berechnet haben, aus deren Zusammenfassung sich der Rang der lexikalischen Einheit ergibt.
2. Berechnungskriterien
Die Kriterien zur Berechnung des Kernwortschatzes haben wir wie folgt spezifiziert:
1. Häufigkeit
Zum Kernwortschatz zählen wir Lexeme,
die häufig vorkommen.
Häufigkeit ist sinnvoll quantifizierbar als relative Frequenz (bspw. je 100.000 Wörter) oder
als Häufigkeitsklasse (die Frequenz eines Wortes ist umgekehrt proportional zu seinem Rang).
2. Stabilität
Zum Kernwortschatz zählen wir Lexeme, die
über einen längeren Zeitraum gleichmäßig häufig auftreten (also keine Modewörter sind)
nicht bzw. kaum themenaffin sind (d.h. in Texten unterschiedlicher thematischer Prägung gleichmäßig distribuiert sind).
3. Produktivität
Zum Kernwortschatz zählen wir Lexeme, die
als lexikalische Morpheme in vielen Ableitungen und Zusammensetzungen (Types) vorkommen,
deren Ableitungen und Komposita häufig sind (Tokens), und die
als lexikalische Morpheme häufiger als Zweitglied in Komposita verwendet werden
Die Frequenzdimensionen wurden mittels der in der folgenden Tabelle dargestellten Werte operationalisiert:
Dimension
Spezifizierung
Berechnungsbasis
Wert
Gewichtung
Häufigkeit
Frequenz
gesamtes Korpus
Häufigkeitsklasse
3
Stabilität
temporale Stabilität
jahresspezifische Subkorpora
Gries’ DP
2
thematische Stabilität
Rubriken / Teilforen als Subkorpora
Gries’ DP
2
Produktivität
Anzahl unterschiedlicher Ableitungen und Komposita
Types
absolute Frequenz
1
Frequenz des Auftretens der Ableitungen und Komposita
Token
absolute Frequenz
1
Anzahl von Ableitungen und Komposita in niedrigen Häufigkeitsklassen
Distribution der Ableitungen und Komposita über die Häufigkeitsklassen
Entropie
1
Frequenz in Funktion als Determinatum
auf der Basis der Types
relative Frequenz
1
3. Datengrundlage
Bei der Zusammenstellung des Textkorpus, auf dessen Basis der Kernwortschatz berechnet wurde, gingen wir von zwei kommunikativen Grundkonstellationen aus:
mehrfachadressierende und konzeptionell schriftliche Texte: Texte von Zeitungen und Magazinen
persönlich adressierende und konzeptionell mündliche Texte: Online-Diskussionsforen
Weiter waren folgende Überlegungen bei der Zusammenstellung des Korpus leitend:
Zwecks Messung der temporalen Stabilität sollte das Korpus mehrere Jahre abdecken.
Zwecks Messung der thematischen Stabilität sollte das Korpus thematisch diversifiziert sein
Um Stabilität und Produktivität valide messen zu können, sollte das Korpus umfangreich sein
1. Forenkorpus (1998-2012)
Das Korpus aus Online-Diskussionsforen setzt sich wie folgt zusammen:
Quelle
Beiträge
Wörter
seniorentreff.de
1.005.159
68.514.967
brigitte.de
1.719.564
141.686.509
politikforen.net
3.260.363
263.866.105
Gesamt Foren:
5.985.086
474.067.581
2. Zeitungskorpus
Das Zeitungs-Diskussionsforen ist etwas kleiner und besteht aus folgenden Teilkorpora:
Quelle
Beiträge
Wörter
SPON 2000-2012
374.253
151.852.627
Spiegel 1990-2011
139.578
87.156.665
ZEIT 1995-2011
114.109
86.915.216
FOCUS 1993-2012
106.400
43.349.229
Gesamt Zeitungen:
734.340
369.273.737
4. Vortrag zur Einführung
Bei den Datenspuren 2016, einer Konferenz des Chaos Computer Club Dresden (C3D2), haben wir unser Projekt vorgestellt.
5. Förderung
Die Berechnung des Kernwortschatzes und die lexikographische Beschreibung des Grundwortschatzes wurde von der Japanese Society for the Promotion of Science im Rahmen folgender Projekte gefördert:
Korpusgeleitete Bestimmung eines Grund- und Aufbauwortschatzes für Deutschlerner /「コーパス駆動型研究に基づく学習用ドイツ語語彙」(Kakenhi Kibankenkyu B, 2011-2014)
Wortschatzerwerb und Sprachgebrauch: Empirische Grundlagen für kognitive Erwerbsmodelle des Grundwortschatzes Deutsch「語彙習得と言語使用:ドイツ語基本語彙の認知的習得モデルの実証的な基盤研究」(Kakenhi C, 2015-2017)
Modelling Linguistic Practices for Learners of German: A Data-driven Approach to Speech Act Sets and Speech Act Sequences (Kakenhi C, 2018-2020)
6. Personen
Willi Lange, Prof. em. der Waseda Universität in Tokyo, Forschungsschwerpunkte: Gesprächslinguistik, Deutsch als Fremdsprache
Saburo Okamura, Prof. an der Waseda Universität in Tokyo, Forschungschwerpunkte: Sprache und Geschlecht, Sprachdidaktik, Lexikographie
Joachim Scharloth ➚, Professor für German Studies an der Waseda Universitöt in Tokyo, Forschungsschwerpunkte: Korpuslinguistik, Kulturwissenschaftliche Linguistik
7. Publikationen
Lange, Willi / Saburo Okamura / Joachim Scharloth (2016): Datengeleiteter Grundwortschatz Deutsch. In: Peter Colliander / Hans Drumbl / Doris Höhmann / Svitlana Ivanenko / Dagmar Knorr / Sandro Moraldo (Hrsg.): Linguistische Grundlagen für den Sprachunterricht. Bozen-Bolzano University Press. S. 221-230. ➚ Download
Scharloth, Joachim / Saburo Okamura / Willi Lange (2016): Gibt es einen Kernwortschatz? Datengeleitete Perspektiven auf die Erstellung von Grundwortschätzen für Deutsch als Fremdsprache. In: Simona Brunetti et al. (Hrsg.): Versprachlichung von Welt. Il mondo in parole. Festschrift zum 60. Geburtstag von Maria Lieber. Tübingen: Stauffenburg. S. 273-284. ➚ Download
Lange, Willi / Saburo Okamura / Joachim Scharloth (2015): Grundwortschatz Deutsch als Fremdsprache: Ein datengeleiteter Ansatz. In: Jörg Kilian/Jan Eckhoff (Hrsg.): Deutscher Wortschatz – beschreiben, lernen, lehren. Beiträge zur Wortschatzarbeit in Wissenschaft, Sprachunterricht, Gesellschaft. Peter Lang. ➚ Download
Bubenhofer, Noah / Willi Lange / Saburo Okamura / Joachim Scharloth (2015): Wortschatz in Lehrwerken für Deutsch als Fremdsprache: ein frequenzorientierter Ansatz. In: Jana Kiesendahl / Christine Ott (Hrsg.): Linguistik und Schulbuchforschung. Göttingen: V&R unipress.
Okamura, Saburo / Willi Lange / Joachim Scharloth (Hrsg.) (2012): Grundwortschatz Deutsch: Lexikografische und fremdsprachendidaktische Perspektiven. JGG: Tokyo. (= Studienreihe der Japanischen Gesellschaft fuer Germanistik 088) ➚ Download
Bubenhofer, Noah (2012): Lehrwerke und Referenzwortschätze. Der Nutzen frequenzbasierter Grundwortschätze. In: Okamura, Saburo/Lange, Willi/Scharloth, Joachim (Hrsg.): Grundwortschatz Deutsch: lexiko-grafische und fremdsprachendidaktische Perspektiven, Studienreihe der Japanischen Gesellschaft für Germanistik (SrJGG) 088, Tokyo, S. 13-27.
Okamura, Saburo / Willi Lange / Joachim Scharloth (2012): Methoden der Bestimmung des Kernwortschatzes Deutsch. In: Dies. (Hrsg.): Grundwortschatz Deutsch: Lexikografische und fremdsprachendidaktische Perspektiven. JGG: Tokyo. S. 29-44. (= Studienreihe der Japanischen Gesellschaft für Germantistik 088)
Bubenhofer, Noah / Willi Lange / Saburo Okamura / Joachim Scharloth (2011): Welcher Wortschatz? Korpuslinguistische Untersuchungen zur Wortschatzselektion japanischer Deutschlehrbücher für Anfänger. In: Doitsugo Kyoiku - Deutschunterricht in Japan, 16, S. 43-60. ➚ Download
8. Weitere Forschungsarbeiten im Kontext des Projekts
Im Rahmen des Projekts werden bzw. wurden zwei Dissertationen (co-) betreut:
Frank Nickel (Dresden): Die Bedeutung der Englischkompetenz japanischer Deutschlerner für den Wortschatzsaufbau DaF in Japan
Nelli Nurgalieva (Ufa): Anglizismen in der Pressesprache
Im Kontext des Projekts sind folgende Master- und Bacherlorarbeiten entstanden:
Ana Katovčić (Dresden): Sprachenlernen mit Chunks: Eine korpusbasierte Methode zur Auswahl von Konstruktionen für den DaF-Unterricht
Veronika Valvodová (Dresden): Zur thematischen Gliederung der Grund- und Aufbauwortschätze für DaF. Lemmaselektion und -zuordnung
Lydia Barth (Dresden): Präsentation von Lernerwortschätzen auf der Basis kognitiver Modelle des Wortschatzerwerbs
Anna Bonazzi (Dresden): Grundwortschatz Deutsch_ Ein Korpusansatz. Analysen zur Textabdeckung unterschiedlicher Grundwortschätze
Elisabeth Muntschick (Leipzig): Zur Bewertung von Textschwierigkeit am Beispiel von Kinder- und Jugendliteratur - Eine korpuslinguistische Analyse im Kontext DaF