Investigating Maps of Science Using Contextual Proximity of Citations Based on Deep Contextualized Word Representation
- 1. Kohat University of Science and Technology
- 2. Nanchang University
- 3. National Textile University
- 4. Al Ain University of Science and Technology
Description
The citation intent extraction and classification has long been studied as it is a good measure of relevancy. Different approaches have classified the citations into different classes; including weak and strong, positive and negative, important and unimportant. Others have gone further from binary classification to multi-classes, including extension, use, background, or comparison. Researchers have utilized various elements of the information, including both meta and contents of the paper. The actual context of any referred article lies within the citation context where a paper is referred. Various attempts have been made to study the citation context to capture the citation intent, but very few have encoded the words to their contextual representations. For automated classification, we need to train deep learning models, which take the citation context as input and provides the reason for citing a paper. Deep neural models work on numeric data, and therefore, we must convert the text information to its numeric representation. Natural languages are much complex than computer languages. Computer languages have a pre-defined fixed syntax where each word has a unique meaning. In contrast, every word in natural language may have a different meaning and may well be understood by understanding the position, previous discussion, and neighboring words. The extra information provides the context of a word within a sentence. We have, therefore, used contextual word representation, which is trained through deep neural networks. Deep models require massive data for generalizing the model, however, the existing state-of-the-art datasets don't provide much information for the training models to get generalized. Therefore, we have developed our own scholarly dataset, Citation Context Dataset with Intent (C2D-I), an extension of the C2D dataset. We used a transformers based model for capturing the contextual representation of words. Our proposed method outperformed the existing benchmark methods with F1 score of 89%.
Translated Descriptions
Translated Description (Arabic)
تمت دراسة استخراج وتصنيف نية الاقتباس منذ فترة طويلة لأنه مقياس جيد للملاءمة. صنفت المناهج المختلفة الاقتباسات إلى فئات مختلفة ؛ بما في ذلك ضعيفة وقوية وإيجابية وسلبية ومهمة وغير مهمة. ذهب آخرون إلى أبعد من التصنيف الثنائي إلى فئات متعددة، بما في ذلك الامتداد أو الاستخدام أو الخلفية أو المقارنة. استخدم الباحثون عناصر مختلفة من المعلومات، بما في ذلك التعريف ومحتويات الورقة. يكمن السياق الفعلي لأي مقالة مشار إليها في سياق الاقتباس حيث تتم إحالة الورقة. وقد بذلت محاولات مختلفة لدراسة سياق الاقتباس لالتقاط نية الاقتباس، ولكن قلة قليلة قامت بتشفير الكلمات إلى تمثيلاتها السياقية. بالنسبة للتصنيف الآلي، نحتاج إلى تدريب نماذج التعلم العميق، التي تأخذ سياق الاقتباس كمدخلات وتوفر سبب الاستشهاد بالورقة. تعمل النماذج العصبية العميقة على البيانات الرقمية، وبالتالي، يجب علينا تحويل معلومات النص إلى تمثيلها الرقمي. اللغات الطبيعية معقدة للغاية مقارنة بلغات الكمبيوتر. تحتوي لغات الكمبيوتر على بناء جملة ثابت محدد مسبقًا حيث يكون لكل كلمة معنى فريد. على النقيض من ذلك، قد يكون لكل كلمة في اللغة الطبيعية معنى مختلف وقد يتم فهمها جيدًا من خلال فهم الموقف والمناقشة السابقة والكلمات المجاورة. توفر المعلومات الإضافية سياق كلمة داخل جملة. لذلك، استخدمنا تمثيل الكلمات السياقية، والذي يتم تدريبه من خلال الشبكات العصبية العميقة. تتطلب النماذج العميقة بيانات ضخمة لتعميم النموذج، ومع ذلك، فإن مجموعات البيانات الحديثة الحالية لا توفر الكثير من المعلومات لنماذج التدريب لتعميمها. لذلك، قمنا بتطوير مجموعة البيانات العلمية الخاصة بنا، مجموعة بيانات سياق الاقتباس مع النية (C2D - I)، امتدادًا لمجموعة بيانات C2D. استخدمنا نموذجًا قائمًا على المحولات لالتقاط التمثيل السياقي للكلمات. تفوقت طريقتنا المقترحة على طرق المقارنات المعيارية الحالية حيث بلغت درجة الفورمولا ون 89 ٪.Translated Description (French)
L'extraction et la classification de l'intention de citation ont longtemps été étudiées car c'est une bonne mesure de la pertinence. Différentes approches ont classé les citations en différentes classes ; y compris faibles et fortes, positives et négatives, importantes et sans importance. D'autres sont allés plus loin de la classification binaire à la multi-classe, y compris l'extension, l'utilisation, le contexte ou la comparaison. Les chercheurs ont utilisé divers éléments de l'information, y compris les métadonnées et le contenu de l'article. Le contexte réel de tout article référencé se situe dans le contexte de citation où un article est référé. Diverses tentatives ont été faites pour étudier le contexte de la citation afin de capturer l'intention de la citation, mais très peu ont encodé les mots dans leurs représentations contextuelles. Pour la classification automatisée, nous devons former des modèles d'apprentissage profond, qui prennent le contexte de citation comme entrée et fournissent la raison de citer un article. Les modèles neuronaux profonds fonctionnent sur des données numériques et, par conséquent, nous devons convertir les informations textuelles en leur représentation numérique. Les langages naturels sont beaucoup plus complexes que les langages informatiques. Les langages informatiques ont une syntaxe fixe prédéfinie où chaque mot a une signification unique. En revanche, chaque mot en langage naturel peut avoir une signification différente et peut bien être compris en comprenant la position, la discussion précédente et les mots voisins. Les informations supplémentaires fournissent le contexte d'un mot dans une phrase. Nous avons donc utilisé la représentation contextuelle des mots, qui est formée à travers des réseaux de neurones profonds. Les modèles profonds nécessitent des données massives pour généraliser le modèle, cependant, les ensembles de données de pointe existants ne fournissent pas beaucoup d'informations pour que les modèles de formation soient généralisés. Par conséquent, nous avons développé notre propre ensemble de données savantes, Citation Context Dataset with Intent (C2D-I), une extension de l'ensemble de données C2D. Nous avons utilisé un modèle basé sur les transformateurs pour capturer la représentation contextuelle des mots. Notre méthode proposée a surpassé les méthodes de référence existantes avec un score F1 de 89 %.Translated Description (Spanish)
La extracción y clasificación de la intención de citación se ha estudiado durante mucho tiempo, ya que es una buena medida de relevancia. Diferentes enfoques han clasificado las citas en diferentes clases; incluyendo débil y fuerte, positivo y negativo, importante y sin importancia. Otros han ido más allá de la clasificación binaria a clases múltiples, incluida la extensión, el uso, el fondo o la comparación. Los investigadores han utilizado varios elementos de la información, incluidos tanto el meta como el contenido del documento. El contexto real de cualquier artículo referido se encuentra dentro del contexto de citación donde se refiere un artículo. Se han hecho varios intentos de estudiar el contexto de la cita para capturar la intención de la cita, pero muy pocos han codificado las palabras en sus representaciones contextuales. Para la clasificación automatizada, necesitamos entrenar modelos de aprendizaje profundo, que tomen el contexto de la cita como entrada y proporcionen la razón para citar un artículo. Los modelos neuronales profundos funcionan con datos numéricos y, por lo tanto, debemos convertir la información del texto en su representación numérica. Los lenguajes naturales son mucho más complejos que los lenguajes informáticos. Los lenguajes informáticos tienen una sintaxis fija predefinida donde cada palabra tiene un significado único. Por el contrario, cada palabra en lenguaje natural puede tener un significado diferente y bien puede entenderse al comprender la posición, la discusión previa y las palabras vecinas. La información adicional proporciona el contexto de una palabra dentro de una oración. Por lo tanto, hemos utilizado la representación contextual de palabras, que se entrena a través de redes neuronales profundas. Los modelos profundos requieren datos masivos para generalizar el modelo, sin embargo, los conjuntos de datos de última generación existentes no proporcionan mucha información para que los modelos de capacitación se generalicen. Por lo tanto, hemos desarrollado nuestro propio conjunto de datos académicos, Citation Context Dataset with Intent (C2D-I), una extensión del conjunto de datos C2D. Utilizamos un modelo basado en transformadores para capturar la representación contextual de las palabras. Nuestro método propuesto superó a los métodos de referencia existentes con una puntuación F1 del 89%.Files
09737031.pdf.pdf
Files
(245 Bytes)
| Name | Size | Download all |
|---|---|---|
|
md5:b44175f53effb5ffd17b6a972abcb47a
|
245 Bytes | Preview Download |
Additional details
Additional titles
- Translated title (Arabic)
- التحقيق في خرائط العلوم باستخدام القرب السياقي للاستشهادات بناءً على تمثيل الكلمات السياقية العميقة
- Translated title (French)
- Étudier les cartes de la science en utilisant la proximité contextuelle des citations basées sur une représentation contextualisée profonde des mots
- Translated title (Spanish)
- Investigación de mapas de la ciencia utilizando la proximidad contextual de citas basadas en la representación contextualizada profunda de palabras
Identifiers
- Other
- https://openalex.org/W4225921062
- DOI
- 10.1109/access.2022.3159980
References
- https://openalex.org/W1799284535
- https://openalex.org/W1850494429
- https://openalex.org/W1968496402
- https://openalex.org/W1970859146
- https://openalex.org/W1990845847
- https://openalex.org/W1993318811
- https://openalex.org/W1997423738
- https://openalex.org/W2005207065
- https://openalex.org/W2014545475
- https://openalex.org/W205532704
- https://openalex.org/W2064675550
- https://openalex.org/W2088336913
- https://openalex.org/W2100235918
- https://openalex.org/W2108598243
- https://openalex.org/W2116655493
- https://openalex.org/W2128438887
- https://openalex.org/W2143017621
- https://openalex.org/W2150569271
- https://openalex.org/W2331870320
- https://openalex.org/W2344535803
- https://openalex.org/W2484065175
- https://openalex.org/W2523246573
- https://openalex.org/W2525778437
- https://openalex.org/W2539903407
- https://openalex.org/W2740085866
- https://openalex.org/W2757344433
- https://openalex.org/W2763807380
- https://openalex.org/W2768950724
- https://openalex.org/W2787285217
- https://openalex.org/W2802280634
- https://openalex.org/W2803318469
- https://openalex.org/W2808556605
- https://openalex.org/W2896457183
- https://openalex.org/W2899489554
- https://openalex.org/W2899675781
- https://openalex.org/W2901949610
- https://openalex.org/W2911964244
- https://openalex.org/W2918408501
- https://openalex.org/W2941003925
- https://openalex.org/W2962739339
- https://openalex.org/W2962815673
- https://openalex.org/W2964110616
- https://openalex.org/W2964121744
- https://openalex.org/W2974012318
- https://openalex.org/W2978182211
- https://openalex.org/W3009817544
- https://openalex.org/W3011086770
- https://openalex.org/W3015468748
- https://openalex.org/W3021494766
- https://openalex.org/W3041133507
- https://openalex.org/W3043016077
- https://openalex.org/W3119694361
- https://openalex.org/W3120655260
- https://openalex.org/W4230097545
- https://openalex.org/W4295838474
- https://openalex.org/W4301736030
- https://openalex.org/W4385245566