Published May 22, 2022 | Version v1
Publication Open

Discovering trends and hotspots of biosafety and biosecurity research via machine learning

  • 1. Jilin University
  • 2. Zhuhai Institute of Advanced Technology
  • 3. Jilin Province Science and Technology Department
  • 4. Ministry of Education of the People's Republic of China
  • 5. Air Force Medical University
  • 6. King Abdullah University of Science and Technology
  • 7. University of Missouri

Description

Abstract Coronavirus disease 2019 (COVID-19) has infected hundreds of millions of people and killed millions of them. As an RNA virus, COVID-19 is more susceptible to variation than other viruses. Many problems involved in this epidemic have made biosafety and biosecurity (hereafter collectively referred to as 'biosafety') a popular and timely topic globally. Biosafety research covers a broad and diverse range of topics, and it is important to quickly identify hotspots and trends in biosafety research through big data analysis. However, the data-driven literature on biosafety research discovery is quite scant. We developed a novel topic model based on latent Dirichlet allocation, affinity propagation clustering and the PageRank algorithm (LDAPR) to extract knowledge from biosafety research publications from 2011 to 2020. Then, we conducted hotspot and trend analysis with LDAPR and carried out further studies, including annual hot topic extraction, a 10-year keyword evolution trend analysis, topic map construction, hot region discovery and fine-grained correlation analysis of interdisciplinary research topic trends. These analyses revealed valuable information that can guide epidemic prevention work: (1) the research enthusiasm over a certain infectious disease not only is related to its epidemic characteristics but also is affected by the progress of research on other diseases, and (2) infectious diseases are not only strongly related to their corresponding microorganisms but also potentially related to other specific microorganisms. The detailed experimental results and our code are available at https://github.com/KEAML-JLU/Biosafety-analysis.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

أصاب مرض فيروس كورونا 2019 (COVID -19) مئات الملايين من الأشخاص وقتل الملايين منهم. وباعتباره فيروس حمض نووي ريبوزي، فإن كوفيد-19 أكثر عرضة للاختلاف من الفيروسات الأخرى. جعلت العديد من المشاكل التي ينطوي عليها هذا الوباء السلامة البيولوجية والأمن البيولوجي (المشار إليها فيما يلي مجتمعة باسم "السلامة البيولوجية ") موضوعًا شائعًا وفي الوقت المناسب على مستوى العالم. تغطي أبحاث السلامة الأحيائية مجموعة واسعة ومتنوعة من الموضوعات، ومن المهم تحديد النقاط الساخنة والاتجاهات في أبحاث السلامة الأحيائية بسرعة من خلال تحليل البيانات الضخمة. ومع ذلك، فإن الأدبيات المستندة إلى البيانات حول اكتشاف أبحاث السلامة الأحيائية ضئيلة للغاية. قمنا بتطوير نموذج موضوع جديد يعتمد على تخصيص ديريتشليت الكامن، وتجميع انتشار التقارب وخوارزمية تصنيف الصفحات (LDAPR) لاستخراج المعرفة من منشورات أبحاث السلامة الأحيائية من عام 2011 إلى عام 2020. بعد ذلك، أجرينا تحليلًا للنقاط الساخنة والاتجاهات مع LDAPR وأجرينا المزيد من الدراسات، بما في ذلك استخراج الموضوع الساخن السنوي، وتحليل اتجاه تطور الكلمات الرئيسية لمدة 10 سنوات، وبناء خريطة الموضوع، واكتشاف المنطقة الساخنة وتحليل الارتباط الدقيق لاتجاهات موضوع البحث متعدد التخصصات. كشفت هذه التحليلات عن معلومات قيمة يمكن أن توجه أعمال الوقاية من الأوبئة: (1) لا يرتبط الحماس البحثي لمرض معدي معين بخصائصه الوبائية فحسب، بل يتأثر أيضًا بتقدم البحوث المتعلقة بأمراض أخرى، و (2) لا ترتبط الأمراض المعدية ارتباطًا وثيقًا بالكائنات الحية الدقيقة المقابلة لها فحسب، بل ترتبط أيضًا بالكائنات الحية الدقيقة المحددة الأخرى. تتوفر النتائج التجريبية التفصيلية ورمزنا على https://github.com/KEAML-JLU/Biosafety-analysis.

Translated Description (French)

Résumé La maladie à coronavirus 2019 (COVID-19) a infecté des centaines de millions de personnes et en a tué des millions. En tant que virus à ARN, le COVID-19 est plus sensible à la variation que les autres virus. De nombreux problèmes liés à cette épidémie ont fait de la biosécurité et de la biosûreté (ci-après collectivement dénommées « biosécurité ») un sujet populaire et opportun à l'échelle mondiale. La recherche en biosécurité couvre un large éventail de sujets, et il est important d'identifier rapidement les points chauds et les tendances de la recherche en biosécurité grâce à l'analyse des mégadonnées. Cependant, la littérature axée sur les données sur la découverte de la recherche en biosécurité est assez limitée. Nous avons développé un nouveau modèle de sujet basé sur l'allocation de Dirichlet latente, le clustering de propagation d'affinité et l'algorithme PageRank (LDAPR) pour extraire des connaissances des publications de recherche sur la biosécurité de 2011 à 2020. Ensuite, nous avons effectué une analyse des points chauds et des tendances avec LDAPR et mené d'autres études, notamment une extraction annuelle des sujets chauds, une analyse des tendances de l'évolution des mots clés sur 10 ans, la construction de cartes thématiques, la découverte des régions chaudes et une analyse de corrélation fine des tendances des sujets de recherche interdisciplinaires. Ces analyses ont révélé des informations précieuses qui peuvent guider le travail de prévention des épidémies : (1) l'enthousiasme de la recherche sur une certaine maladie infectieuse est non seulement lié à ses caractéristiques épidémiques, mais est également affecté par les progrès de la recherche sur d'autres maladies, et (2) les maladies infectieuses sont non seulement fortement liées à leurs micro-organismes correspondants, mais aussi potentiellement liées à d'autres micro-organismes spécifiques. Les résultats expérimentaux détaillés et notre code sont disponibles sur https://github.com/KEAML-JLU/Biosafety-analysis.

Translated Description (Spanish)

Resumen La enfermedad por coronavirus 2019 (COVID-19) ha infectado a cientos de millones de personas y ha matado a millones de ellas. Como virus de ARN, COVID-19 es más susceptible a la variación que otros virus. Muchos problemas relacionados con esta epidemia han hecho que la bioseguridad y la bioseguridad (en lo sucesivo denominadas colectivamente "bioseguridad") sean un tema popular y oportuno a nivel mundial. La investigación sobre bioseguridad abarca una amplia y diversa gama de temas, y es importante identificar rápidamente los puntos críticos y las tendencias en la investigación sobre bioseguridad a través del análisis de macrodatos. Sin embargo, la literatura basada en datos sobre el descubrimiento de la investigación en bioseguridad es bastante escasa. Desarrollamos un modelo temático novedoso basado en la asignación latente de Dirichlet, el agrupamiento de propagación de afinidad y el algoritmo PageRank (LDAPR) para extraer conocimiento de las publicaciones de investigación en bioseguridad de 2011 a 2020. Luego, realizamos un análisis de puntos calientes y tendencias con LDAPR y llevamos a cabo más estudios, incluida la extracción anual de temas calientes, un análisis de tendencias de evolución de palabras clave de 10 años, la construcción de mapas de temas, el descubrimiento de regiones calientes y el análisis de correlación detallada de tendencias de temas de investigación interdisciplinarios. Estos análisis revelaron información valiosa que puede guiar el trabajo de prevención de epidemias: (1) el entusiasmo por la investigación sobre una determinada enfermedad infecciosa no solo está relacionado con sus características epidémicas, sino que también se ve afectado por el progreso de la investigación sobre otras enfermedades, y (2) las enfermedades infecciosas no solo están fuertemente relacionadas con sus microorganismos correspondientes, sino que también están potencialmente relacionadas con otros microorganismos específicos. Los resultados experimentales detallados y nuestro código están disponibles en https://github.com/KEAML-JLU/Biosafety-analysis.

Files

bbac194.pdf.pdf

Files (93 Bytes)

⚠️ Please wait a few minutes before your translated files are ready ⚠️ Note: Some files might be protected thus translations might not work.
Name Size Download all
md5:b0d506893d4802090edf1644f5f082cd
93 Bytes
Preview Download

Additional details

Additional titles

Translated title (Arabic)
اكتشاف الاتجاهات والنقاط الساخنة لأبحاث السلامة البيولوجية والأمن البيولوجي من خلال التعلم الآلي
Translated title (French)
Découvrir les tendances et les points chauds de la recherche sur la biosécurité et la biosécurité via l'apprentissage automatique
Translated title (Spanish)
Descubrir tendencias y puntos críticos de la investigación en bioseguridad y bioseguridad a través del aprendizaje automático

Identifiers

Other
https://openalex.org/W4282913345
DOI
10.1093/bib/bbac194

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
China

References

  • https://openalex.org/W1480874157
  • https://openalex.org/W1546577513
  • https://openalex.org/W1563635490
  • https://openalex.org/W1661212489
  • https://openalex.org/W1714665356
  • https://openalex.org/W1844778439
  • https://openalex.org/W1965186841
  • https://openalex.org/W1966264059
  • https://openalex.org/W1968629193
  • https://openalex.org/W1977752725
  • https://openalex.org/W1982179793
  • https://openalex.org/W2031988249
  • https://openalex.org/W2042980227
  • https://openalex.org/W2056297672
  • https://openalex.org/W2060686520
  • https://openalex.org/W2066937690
  • https://openalex.org/W2090018148
  • https://openalex.org/W2090027512
  • https://openalex.org/W2091476020
  • https://openalex.org/W2095567883
  • https://openalex.org/W2100834894
  • https://openalex.org/W2103868202
  • https://openalex.org/W2108322580
  • https://openalex.org/W2117331546
  • https://openalex.org/W2117935598
  • https://openalex.org/W2144151172
  • https://openalex.org/W2146341620
  • https://openalex.org/W2161528141
  • https://openalex.org/W2165232124
  • https://openalex.org/W2166610567
  • https://openalex.org/W2170144014
  • https://openalex.org/W2312463092
  • https://openalex.org/W2493916176
  • https://openalex.org/W2529013159
  • https://openalex.org/W2547762161
  • https://openalex.org/W2753087252
  • https://openalex.org/W2803478834
  • https://openalex.org/W2911489562
  • https://openalex.org/W2915254278
  • https://openalex.org/W2915527082
  • https://openalex.org/W2916253749
  • https://openalex.org/W2939055544
  • https://openalex.org/W2945751326
  • https://openalex.org/W2990991805
  • https://openalex.org/W2991491848
  • https://openalex.org/W2999146724
  • https://openalex.org/W3000887590
  • https://openalex.org/W3010699833
  • https://openalex.org/W3013008917
  • https://openalex.org/W3025586003
  • https://openalex.org/W3037105506
  • https://openalex.org/W3047456135
  • https://openalex.org/W3080379602
  • https://openalex.org/W3099640513
  • https://openalex.org/W3112188931
  • https://openalex.org/W3112535140
  • https://openalex.org/W3153270717
  • https://openalex.org/W3167924385
  • https://openalex.org/W4206170836
  • https://openalex.org/W4206247747
  • https://openalex.org/W4206687743