von Gast » 02.12.2019, 23:19
Gast hat geschrieben: ↑02.12.2019, 15:24
Was hat es eigentlich mit der Häufigkeitsverteilung auf sich?
Das geht aus dem Diagramm leider nicht hervor.
Dieter
Ja, lieber Dieter, diese Diagramme! Meine Großmutter hat immer zu mir gesagt: »Wenn man etwas nicht weiß, dann muss man es sich erklären.« Also ich erkläre mir das so: Für das gegebene Wort wird für jedes Jahr die relative Häufigkeit des Auftretens dieses Wortes angegeben, also der Quotient aus der Anzahl des Auftretens des betreffenden Wortes im Korpus des betreffenden Jahres und der Gesamtzahl der im Korpus des betreffenden Jahres enthaltenen Wörter. Es gibt ja bessere und schlechtere Jahre, einmal kommen mehr Texte (mehr Wörter) ins Korpus, einmal weniger. Deshalb müsste man sich ja eher bei der Nennung von absoluten Zahlen fragen, was es eigentlich mit ihnen auf sich habe, und man müsste den Quotienten erst selbst bilden, um sich einen Eindruck von der relativen Häufigkeit des betreffenden Wortes zu machen.
Aber was sagt nun solch ein Wert wie 0,0000785138%, wie er für »Arbeitgeberin« für das Jahr 1994 angegeben wird, ganz praktisch? Das kann man sich natürlich auch ganz leicht erklären, insbesondere wenn man ihn einmal auf 0,00008% rundet. Auf einer Normseite mit 30 Zeilen à 60 Zeichen stehen ungefähr 250 Wörter. Ein Wort entspricht also 0,4% der Anzahl der Wörter auf einer Seite, wenn wir das Blatt doppelseitig bedrucken, entspricht ein Wort etwa 0,2% aller auf dem Blatt stehenden Wörter. Bei 1.000 Blatt entspricht der Anteil eines Wortes 0,0002% und bei 1.500 Blatt 0,00008%. Also, ein Wort wie »Arbeitgeberin« kommt im Korpus des Jahres 1994 auf 1.500 doppelseitig bedruckten Blättern einmal vor – durchschnittlich. Alles klar?
Viel häufiger kommt etwa das Wort »der« vor, zuzüglich der Großschreibung:
https://books.google.com/ngrams/graph?c ... moothing=3
Es findet sich also auf jedem Blatt gut fünfzehn Mal! Und sein Anteil bleibt auch über Jahrhunderte relativ konstant. Lediglich gegen Ende des letzten Jahrhunderts fällt dieser Anteil etwas ab. Apropos: An dieser Stelle können wir eventuell auch noch einen Blick auf zwei weitere Wörter werfen, deren Häufigkeiten von der im Jahre 1982 entstandenen guentherodtsch-hellingsch-puschsch-trömel-plötzschen Initiative »Druckt mehr Standardsprache!« befördert wurden.
https://books.google.com/ngrams/graph?c ... moothing=3
https://books.google.com/ngrams/graph?c ... moothing=3
Auch hier gilt natürlich für die Einordnung in den gesamtsprachlichen Kontext, was bereits für »Arbeitgeberin« im Verhältnis zum »Arbeitgeber« galt:
https://books.google.com/ngrams/graph?c ... moothing=3
https://books.google.com/ngrams/graph?c ... moothing=3
[quote=Gast post_id=27987 time=1575296696]
Was hat es eigentlich mit der Häufigkeitsverteilung auf sich?
Das geht aus dem Diagramm leider nicht hervor.
Dieter
[/quote]
Ja, lieber Dieter, diese Diagramme! Meine Großmutter hat immer zu mir gesagt: »Wenn man etwas nicht weiß, dann muss man es sich erklären.« Also ich erkläre mir das so: Für das gegebene Wort wird für jedes Jahr die relative Häufigkeit des Auftretens dieses Wortes angegeben, also der Quotient aus der Anzahl des Auftretens des betreffenden Wortes im Korpus des betreffenden Jahres und der Gesamtzahl der im Korpus des betreffenden Jahres enthaltenen Wörter. Es gibt ja bessere und schlechtere Jahre, einmal kommen mehr Texte (mehr Wörter) ins Korpus, einmal weniger. Deshalb müsste man sich ja eher bei der Nennung von absoluten Zahlen fragen, was es eigentlich mit ihnen auf sich habe, und man müsste den Quotienten erst selbst bilden, um sich einen Eindruck von der relativen Häufigkeit des betreffenden Wortes zu machen.
Aber was sagt nun solch ein Wert wie 0,0000785138%, wie er für »Arbeitgeberin« für das Jahr 1994 angegeben wird, ganz praktisch? Das kann man sich natürlich auch ganz leicht erklären, insbesondere wenn man ihn einmal auf 0,00008% rundet. Auf einer Normseite mit 30 Zeilen à 60 Zeichen stehen ungefähr 250 Wörter. Ein Wort entspricht also 0,4% der Anzahl der Wörter auf einer Seite, wenn wir das Blatt doppelseitig bedrucken, entspricht ein Wort etwa 0,2% aller auf dem Blatt stehenden Wörter. Bei 1.000 Blatt entspricht der Anteil eines Wortes 0,0002% und bei 1.500 Blatt 0,00008%. Also, ein Wort wie »Arbeitgeberin« kommt im Korpus des Jahres 1994 auf 1.500 doppelseitig bedruckten Blättern einmal vor – durchschnittlich. Alles klar?
Viel häufiger kommt etwa das Wort »der« vor, zuzüglich der Großschreibung:
https://books.google.com/ngrams/graph?content=Der%2Bder&year_start=1800&year_end=2000&corpus=20&smoothing=3
Es findet sich also auf jedem Blatt gut fünfzehn Mal! Und sein Anteil bleibt auch über Jahrhunderte relativ konstant. Lediglich gegen Ende des letzten Jahrhunderts fällt dieser Anteil etwas ab. Apropos: An dieser Stelle können wir eventuell auch noch einen Blick auf zwei weitere Wörter werfen, deren Häufigkeiten von der im Jahre 1982 entstandenen guentherodtsch-hellingsch-puschsch-trömel-plötzschen Initiative »Druckt mehr Standardsprache!« befördert wurden.
https://books.google.com/ngrams/graph?content=Garantin&year_start=1800&year_end=2000&corpus=20&smoothing=3
https://books.google.com/ngrams/graph?content=Partnerin&year_start=1800&year_end=2000&corpus=20&smoothing=3
Auch hier gilt natürlich für die Einordnung in den gesamtsprachlichen Kontext, was bereits für »Arbeitgeberin« im Verhältnis zum »Arbeitgeber« galt:
https://books.google.com/ngrams/graph?content=Garantin%2C+Garant&year_start=1800&year_end=2000&corpus=20&smoothing=3
https://books.google.com/ngrams/graph?content=Partnerin%2C+Partner&year_start=1800&year_end=2000&corpus=20&smoothing=3
:down: