Published December 16, 2011 | Version v1
Publication Open

Comparing intermittency and network measurements of words and their dependence on authorship

  • 1. Universidade Federal de São Carlos
  • 2. Universidade de São Paulo
  • 3. Max Planck Institute for the Physics of Complex Systems

Description

Many features from texts and languages can now be inferred from statistical analyses using concepts from complex networks and dynamical systems. In this paper we quantify how topological properties of word co-occurrence networks and intermittency (or burstiness) in word distribution depend on the style of authors. Our database contains 40 books from 8 authors who lived in the 19th and 20th centuries, for which the following network measurements were obtained: clustering coefficient, average shortest path lengths, and betweenness. We found that the two factors with stronger dependency on the authors were the skewness in the distribution of word intermittency and the average shortest paths. Other factors such as the betweeness and the Zipf's law exponent show only weak dependency on authorship. Also assessed was the contribution from each measurement to authorship recognition using three machine learning methods. The best performance was a ca. 65 % accuracy upon combining complex network and intermittency features with the nearest neighbor algorithm. From a detailed analysis of the interdependence of the various metrics it is concluded that the methods used here are complementary for providing short- and long-scale perspectives of texts, which are useful for applications such as identification of topical words and information retrieval.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

يمكن الآن استنتاج العديد من الميزات من النصوص واللغات من التحليلات الإحصائية باستخدام مفاهيم من الشبكات المعقدة والأنظمة الديناميكية. في هذه الورقة، نحدد كمياً كيف تعتمد الخصائص الطوبولوجية لشبكات التواجد المشترك للكلمات والتقطع (أو الاندفاع) في توزيع الكلمات على أسلوب المؤلفين. تحتوي قاعدة بياناتنا على 40 كتابًا من 8 مؤلفين عاشوا في القرنين التاسع عشر والعشرين، وتم الحصول على قياسات الشبكة التالية: معامل التجميع، ومتوسط أقصر أطوال المسارات، والتباعد. وجدنا أن العاملين اللذين يعتمدان بشكل أكبر على المؤلفين هما الانحراف في توزيع تقطع الكلمات ومتوسط أقصر المسارات. تظهر عوامل أخرى مثل البينية وأسس قانون Zipf اعتمادًا ضعيفًا فقط على التأليف. كما تم تقييم المساهمة من كل قياس في التعرف على التأليف باستخدام ثلاث طرق للتعلم الآلي. كان أفضل أداء هو دقة تبلغ حوالي 65 ٪ عند الجمع بين ميزات الشبكة المعقدة والتقطع مع أقرب خوارزمية مجاورة. من تحليل مفصل للترابط بين المقاييس المختلفة، تم استنتاج أن الأساليب المستخدمة هنا مكملة لتوفير وجهات نظر قصيرة وطويلة المدى للنصوص، وهي مفيدة لتطبيقات مثل تحديد الكلمات الموضعية واسترجاع المعلومات.

Translated Description (French)

De nombreuses caractéristiques des textes et des langues peuvent maintenant être déduites des analyses statistiques à l'aide de concepts issus de réseaux complexes et de systèmes dynamiques. Dans cet article, nous quantifions comment les propriétés topologiques des réseaux de co-occurrence de mots et l'intermittence (ou l'éclatement) dans la distribution des mots dépendent du style des auteurs. Notre base de données contient 40 livres de 8 auteurs qui ont vécu aux 19e et 20e siècles, pour lesquels les mesures de réseau suivantes ont été obtenues : coefficient de regroupement, longueurs moyennes des chemins les plus courts et entre-deux. Nous avons constaté que les deux facteurs les plus dépendants des auteurs étaient l'asymétrie dans la distribution de l'intermittence des mots et les chemins les plus courts moyens. D'autres facteurs tels que l'entre-deux et l'exposant de la loi de Zipf ne montrent qu'une faible dépendance à la paternité. La contribution de chaque mesure à la reconnaissance de la paternité a également été évaluée à l'aide de trois méthodes d'apprentissage automatique. La meilleure performance était une précision d'environ 65 % en combinant des fonctionnalités complexes de réseau et d'intermittence avec l'algorithme du voisin le plus proche. À partir d'une analyse détaillée de l'interdépendance des différentes métriques, il est conclu que les méthodes utilisées ici sont complémentaires pour fournir des perspectives à court et à long terme de textes, qui sont utiles pour des applications telles que l'identification de mots d'actualité et la récupération d'informations.

Translated Description (Spanish)

Muchas características de textos y lenguajes ahora se pueden inferir de análisis estadísticos utilizando conceptos de redes complejas y sistemas dinámicos. En este artículo cuantificamos cómo las propiedades topológicas de las redes de co-ocurrencia de palabras y la intermitencia (o explosividad) en la distribución de palabras dependen del estilo de los autores. Nuestra base de datos contiene 40 libros de 8 autores que vivieron en los siglos XIX y XX, para los cuales se obtuvieron las siguientes mediciones de red: coeficiente de agrupamiento, longitudes medias de trayecto más corto e intermediación. Descubrimos que los dos factores con mayor dependencia de los autores eran la asimetría en la distribución de la intermitencia de palabras y los caminos más cortos de la media. Otros factores como el intermedio y el exponente de la ley de Zipf muestran solo una débil dependencia de la autoría. También se evaluó la contribución de cada medición al reconocimiento de autoría utilizando tres métodos de aprendizaje automático. El mejor rendimiento fue una precisión de aproximadamente el 65 % al combinar características complejas de red e intermitencia con el algoritmo del vecino más cercano. A partir de un análisis detallado de la interdependencia de las diversas métricas, se concluye que los métodos utilizados aquí son complementarios para proporcionar perspectivas de textos a corto y largo plazo, que son útiles para aplicaciones como la identificación de palabras de actualidad y la recuperación de información.

Files

pdf.pdf

Files (11.9 kB)

⚠️ Please wait a few minutes before your translated files are ready ⚠️ Note: Some files might be protected thus translations might not work.
Name Size Download all
md5:939a3e1666dbb8580c3ed4b3bb1bdeab
11.9 kB
Preview Download

Additional details

Additional titles

Translated title (Arabic)
مقارنة قياسات التقطع والشبكة للكلمات واعتمادها على التأليف
Translated title (French)
Comparaison de l'intermittence et des mesures de réseau des mots et de leur dépendance à la paternité
Translated title (Spanish)
Comparación de la intermitencia y las mediciones de red de las palabras y su dependencia de la autoría

Identifiers

Other
https://openalex.org/W3105958051
DOI
10.1088/1367-2630/13/12/123024

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
Brazil

References

  • https://openalex.org/W1485718738
  • https://openalex.org/W1570448133
  • https://openalex.org/W1574901103
  • https://openalex.org/W1604188556
  • https://openalex.org/W1970294636
  • https://openalex.org/W1971421925
  • https://openalex.org/W1972978214
  • https://openalex.org/W1980499355
  • https://openalex.org/W1981346422
  • https://openalex.org/W1982302394
  • https://openalex.org/W1995875735
  • https://openalex.org/W1999791997
  • https://openalex.org/W2009047999
  • https://openalex.org/W2011399892
  • https://openalex.org/W2024969740
  • https://openalex.org/W2029173860
  • https://openalex.org/W2033634113
  • https://openalex.org/W2035409992
  • https://openalex.org/W2049709809
  • https://openalex.org/W2050715692
  • https://openalex.org/W2054151502
  • https://openalex.org/W2066275271
  • https://openalex.org/W2067572261
  • https://openalex.org/W2069979223
  • https://openalex.org/W2070362834
  • https://openalex.org/W2083590325
  • https://openalex.org/W2095293504
  • https://openalex.org/W2102380637
  • https://openalex.org/W2105544934
  • https://openalex.org/W2113110240
  • https://openalex.org/W2115565572
  • https://openalex.org/W2118364625
  • https://openalex.org/W2125055259
  • https://openalex.org/W2167489963
  • https://openalex.org/W3099247429
  • https://openalex.org/W3101452997
  • https://openalex.org/W3102769687
  • https://openalex.org/W4230608868
  • https://openalex.org/W4238452917
  • https://openalex.org/W4240908132
  • https://openalex.org/W605337499