Coherent oscillations in word-use data from 1700 to 2008
- 1. University of Manchester
- 2. Bariloche Atomic Centre
- 3. Balseiro Institute
- 4. Polytechnic University of Bari
- 5. Comisión Nacional de Energía Atómica
Description
Abstract In written language, the choice of specific words is constrained by both grammatical requirements and the specific semantic context of the message to be transmitted. To a significant degree, the semantic context is in turn affected by a broad cultural and historical environment, which also influences matters of style and manners. Over time, those environmental factors leave an imprint in the statistics of language use, with some words becoming more common and other words being preferred less. Here we characterize the patterns of language use over time based on word statistics extracted from more than 4.5 million books written over a period of 308 years. We find evidence of novel systematic oscillatory patterns in word use with a consistent period narrowly distributed around 14 years. The specific phase relationships between different words show structure at two independent levels: first, there is a weak global phase modulation that is primarily linked to overall shifts in the vocabulary across time; and second, a stronger component dependent on well defined semantic relationships between words. In particular, complex network analysis reveals that semantically related words show strong phase coherence. Ultimately, these previously unknown patterns in the statistics of language may be a consequence of changes in the cultural framework that influences the thematic focus of writers.
Translated Descriptions
Translated Description (Arabic)
الملخص في اللغة المكتوبة، يكون اختيار كلمات محددة مقيدًا بالمتطلبات النحوية والسياق الدلالي المحدد للرسالة المراد نقلها. إلى حد كبير، يتأثر السياق الدلالي بدوره ببيئة ثقافية وتاريخية واسعة، مما يؤثر أيضًا على مسائل الأسلوب والأخلاق. بمرور الوقت، تترك هذه العوامل البيئية بصمة في إحصاءات استخدام اللغة، حيث أصبحت بعض الكلمات أكثر شيوعًا وكلمات أخرى مفضلة أقل. هنا نميز أنماط استخدام اللغة بمرور الوقت بناءً على إحصائيات الكلمات المستخرجة من أكثر من 4.5 مليون كتاب كتب على مدى 308 سنوات. نجد أدلة على أنماط تذبذبية منهجية جديدة في استخدام الكلمات مع فترة ثابتة موزعة بشكل ضيق حوالي 14 عامًا. تُظهر علاقات الطور المحددة بين الكلمات المختلفة البنية على مستويين مستقلين: أولاً، هناك تعديل طوري عالمي ضعيف يرتبط في المقام الأول بالتحولات العامة في المفردات عبر الزمن ؛ وثانياً، مكون أقوى يعتمد على العلاقات الدلالية المحددة جيدًا بين الكلمات. على وجه الخصوص، يكشف تحليل الشبكة المعقد أن الكلمات ذات الصلة دلاليًا تُظهر تماسكًا قويًا للمرحلة. في نهاية المطاف، قد تكون هذه الأنماط غير المعروفة سابقًا في إحصائيات اللغة نتيجة للتغيرات في الإطار الثقافي الذي يؤثر على التركيز المواضيعي للكتاب.Translated Description (French)
Résumé Dans le langage écrit, le choix de mots spécifiques est contraint à la fois par des exigences grammaticales et par le contexte sémantique spécifique du message à transmettre. Dans une large mesure, le contexte sémantique est à son tour affecté par un large environnement culturel et historique, qui influence également les questions de style et de manières. Au fil du temps, ces facteurs environnementaux laissent une empreinte dans les statistiques de l'utilisation de la langue, certains mots devenant plus courants et d'autres moins préférés. Nous caractérisons ici les modèles d'utilisation de la langue au fil du temps sur la base de statistiques de mots extraites de plus de 4,5 millions de livres écrits sur une période de 308 ans. Nous trouvons des preuves de nouveaux modèles oscillatoires systématiques dans l'utilisation des mots avec une période cohérente étroitement répartie autour de 14 ans. Les relations de phase spécifiques entre différents mots montrent une structure à deux niveaux indépendants : premièrement, il existe une faible modulation de phase globale qui est principalement liée aux changements globaux du vocabulaire dans le temps ; et deuxièmement, une composante plus forte dépend de relations sémantiques bien définies entre les mots. En particulier, l'analyse de réseau complexe révèle que les mots sémantiquement liés montrent une forte cohérence de phase. En fin de compte, ces modèles jusque-là inconnus dans les statistiques de la langue peuvent être une conséquence des changements dans le cadre culturel qui influence l'orientation thématique des écrivains.Translated Description (Spanish)
Resumen En el lenguaje escrito, la elección de palabras específicas está limitada tanto por los requisitos gramaticales como por el contexto semántico específico del mensaje que se va a transmitir. En gran medida, el contexto semántico se ve afectado por un amplio entorno cultural e histórico, que también influye en cuestiones de estilo y modales. Con el tiempo, esos factores ambientales dejan una huella en las estadísticas del uso del lenguaje, algunas palabras se vuelven más comunes y otras se prefieren menos. Aquí caracterizamos los patrones de uso del lenguaje a lo largo del tiempo basados en estadísticas de palabras extraídas de más de 4,5 millones de libros escritos en un período de 308 años. Encontramos evidencia de nuevos patrones oscilatorios sistemáticos en el uso de palabras con un período consistente estrechamente distribuido alrededor de los 14 años. Las relaciones de fase específicas entre diferentes palabras muestran una estructura en dos niveles independientes: en primer lugar, hay una modulación de fase global débil que está vinculada principalmente a los cambios generales en el vocabulario a lo largo del tiempo; y en segundo lugar, un componente más fuerte que depende de relaciones semánticas bien definidas entre palabras. En particular, el análisis de redes complejas revela que las palabras semánticamente relacionadas muestran una fuerte coherencia de fase. En última instancia, estos patrones previamente desconocidos en las estadísticas del lenguaje pueden ser consecuencia de cambios en el marco cultural que influye en el enfoque temático de los escritores.Files
palcomms201684.pdf.pdf
Files
(2.5 MB)
Name | Size | Download all |
---|---|---|
md5:f17a368d2e6c0edabf8f87b1a5e40b24
|
2.5 MB | Preview Download |
Additional details
Additional titles
- Translated title (Arabic)
- تذبذبات متماسكة في بيانات استخدام الكلمات من 1700 إلى 2008
- Translated title (French)
- Oscillations cohérentes des données d'utilisation de mots de 1700 à 2008
- Translated title (Spanish)
- Oscilaciones coherentes en los datos de uso de palabras de 1700 a 2008
Identifiers
- Other
- https://openalex.org/W2550279842
- DOI
- 10.1057/palcomms.2016.84
References
- https://openalex.org/W1498437823
- https://openalex.org/W1517590677
- https://openalex.org/W1532634507
- https://openalex.org/W1808906688
- https://openalex.org/W1979618484
- https://openalex.org/W2008203686
- https://openalex.org/W2008620264
- https://openalex.org/W2009315063
- https://openalex.org/W2017761238
- https://openalex.org/W2019096529
- https://openalex.org/W2021216662
- https://openalex.org/W2036611122
- https://openalex.org/W2042738033
- https://openalex.org/W2047880469
- https://openalex.org/W2047940964
- https://openalex.org/W2050715692
- https://openalex.org/W2052954051
- https://openalex.org/W2058105398
- https://openalex.org/W2090618725
- https://openalex.org/W2091203480
- https://openalex.org/W2107218202
- https://openalex.org/W2112090702
- https://openalex.org/W2114082868
- https://openalex.org/W2120810836
- https://openalex.org/W2142509733
- https://openalex.org/W2151936673
- https://openalex.org/W2160912614
- https://openalex.org/W2160943512
- https://openalex.org/W2401701515
- https://openalex.org/W2916526501
- https://openalex.org/W3099460613
- https://openalex.org/W3103022228
- https://openalex.org/W4240908132