Published September 24, 2018 | Version v1
Publication Open

Benchmarking for Keyword Extraction Methodologies in Maintenance Work Orders

  • 1. National Institute of Standards
  • 2. National Institute of Standards and Technology
  • 3. University of Western Australia

Description

Maintenance has largely remained a human-knowledge centered activity, with the primary records of activity being textbased maintenance work orders (MWOs). However, the bulk of maintenance research does not currently attempt to quantify human knowledge, though this knowledge can be rich with useful contextual and system-level information. The underlying quality of data in MWOs often suffers from misspellings, domain-specific (or even workforce specific) jargon, and abbreviations, that prevent its immediate use in computer analyses. Therefore, approaches to making this data computable must translate unstructured text into a formal schema or system; i.e., perform a mapping from informal technical language to some computable format. Keyword spotting (or, extraction) has proven a valuable tool in reducing manual efforts while structuring data, by providing a systematic methodology to create computable knowledge. This technique searches for known vocabulary in a corpus and maps them to designed higher level concepts, shifting the primary effort away from structuring the MWOs themselves, toward creating a dictionary of domain specific terms and the knowledge that they represent. The presented work compares rules-based keyword extraction to data-driven tagging assistance, through quantitative and qualitative discussion of the key advantages and disadvantages. This will enable maintenance practitioners to select an appropriate approach to information encoding that provides needed functionality at minimal cost and effort.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

ظلت الصيانة إلى حد كبير نشاطًا يركز على المعرفة البشرية، حيث كانت السجلات الأولية للنشاط هي أوامر أعمال الصيانة القائمة على النص (MWOs). ومع ذلك، فإن الجزء الأكبر من أبحاث الصيانة لا يحاول حاليًا تحديد كمية المعرفة البشرية، على الرغم من أن هذه المعرفة يمكن أن تكون غنية بالمعلومات السياقية المفيدة وعلى مستوى النظام. غالبًا ما تعاني الجودة الأساسية للبيانات في MWOs من الأخطاء الإملائية، والمصطلحات الخاصة بالمجال (أو حتى الخاصة بالقوى العاملة)، والاختصارات، التي تمنع استخدامها الفوري في تحليلات الكمبيوتر. لذلك، يجب أن تترجم مناهج جعل هذه البيانات قابلة للحساب نصًا غير منظم إلى مخطط أو نظام رسمي ؛ أي إجراء تخطيط من لغة تقنية غير رسمية إلى تنسيق محسوب. أثبت اكتشاف الكلمات الرئيسية (أو استخراجها) أنه أداة قيمة في تقليل الجهود اليدوية أثناء هيكلة البيانات، من خلال توفير منهجية منهجية لإنشاء معرفة قابلة للحساب. تبحث هذه التقنية عن المفردات المعروفة في مجموعة وتعينها لتصميم مفاهيم أعلى مستوى، وتحول الجهد الأساسي بعيدًا عن هيكلة MWOs نفسها، نحو إنشاء قاموس للمصطلحات الخاصة بالمجال والمعرفة التي تمثلها. يقارن العمل المقدم استخراج الكلمات الرئيسية القائمة على القواعد بالمساعدة في وضع العلامات القائمة على البيانات، من خلال المناقشة الكمية والنوعية للمزايا والعيوب الرئيسية. سيمكن ذلك ممارسي الصيانة من اختيار نهج مناسب لترميز المعلومات يوفر الوظائف اللازمة بأقل تكلفة وجهد.

Translated Description (French)

La maintenance est restée en grande partie une activité centrée sur le savoir humain, les principaux enregistrements d'activité étant les ordres de travail de maintenance textuels (MWO). Cependant, la majeure partie de la recherche sur la maintenance ne tente pas actuellement de quantifier les connaissances humaines, bien que ces connaissances puissent être riches en informations contextuelles et au niveau du système utiles. La qualité sous-jacente des données dans les MWO souffre souvent de fautes d'orthographe, de jargon spécifique au domaine (ou même à la main-d' œuvre) et d'abréviations, qui empêchent leur utilisation immédiate dans les analyses informatiques. Par conséquent, les approches pour rendre ces données calculables doivent traduire le texte non structuré en un schéma ou un système formel ; c'est-à-dire, effectuer un mappage du langage technique informel à un format calculable. Le repérage (ou l'extraction) de mots-clés s'est avéré un outil précieux pour réduire les efforts manuels tout en structurant les données, en fournissant une méthodologie systématique pour créer des connaissances calculables. Cette technique recherche le vocabulaire connu dans un corpus et le mappe pour concevoir des concepts de niveau supérieur, déplaçant l'effort principal de la structuration des MWOs eux-mêmes, vers la création d'un dictionnaire de termes spécifiques au domaine et des connaissances qu'ils représentent. Le travail présenté compare l'extraction de mots-clés basée sur des règles à l'aide de balisage axée sur les données, à travers une discussion quantitative et qualitative des principaux avantages et inconvénients. Cela permettra aux praticiens de la maintenance de sélectionner une approche appropriée de l'encodage des informations qui fournit les fonctionnalités nécessaires à un coût et un effort minimaux.

Translated Description (Spanish)

El mantenimiento se ha mantenido en gran medida como una actividad centrada en el conocimiento humano, y los registros principales de la actividad son las órdenes de trabajo de mantenimiento basadas en texto (MWO). Sin embargo, la mayor parte de la investigación de mantenimiento actualmente no intenta cuantificar el conocimiento humano, aunque este conocimiento puede ser rico en información contextual y de nivel de sistema útil. La calidad subyacente de los datos en los MWO a menudo adolece de faltas de ortografía, jerga específica del dominio (o incluso específica de la fuerza laboral) y abreviaturas, que impiden su uso inmediato en los análisis informáticos. Por lo tanto, los enfoques para hacer que estos datos sean computables deben traducir el texto no estructurado en un esquema o sistema formal; es decir, realizar un mapeo del lenguaje técnico informal a algún formato computable. La detección de palabras clave (o extracción) ha demostrado ser una herramienta valiosa para reducir los esfuerzos manuales mientras se estructuran los datos, al proporcionar una metodología sistemática para crear conocimiento computable. Esta técnica busca vocabulario conocido en un corpus y los asigna a conceptos diseñados de nivel superior, alejando el esfuerzo principal de la estructuración de los propios MWO, hacia la creación de un diccionario de términos específicos del dominio y el conocimiento que representan. El trabajo presentado compara la extracción de palabras clave basada en reglas con la asistencia de etiquetado basada en datos, a través de una discusión cuantitativa y cualitativa de las ventajas y desventajas clave. Esto permitirá a los profesionales de mantenimiento seleccionar un enfoque apropiado para la codificación de la información que proporcione la funcionalidad necesaria con un coste y esfuerzo mínimos.

Files

phmc_18_541.pdf

Files (643.0 kB)

⚠️ Please wait a few minutes before your translated files are ready ⚠️ Note: Some files might be protected thus translations might not work.
Name Size Download all
md5:d14d8d296f60abd039781d090d1e0cc5
643.0 kB
Preview Download

Additional details

Additional titles

Translated title (Arabic)
المقارنة المعيارية لمنهجيات استخراج الكلمات الرئيسية في أوامر عمل الصيانة
Translated title (French)
Analyse comparative des méthodologies d'extraction de mots clés dans les ordres de travail de maintenance
Translated title (Spanish)
Benchmarking para Metodologías de Extracción de Palabras Clave en Órdenes de Trabajo de Mantenimiento

Identifiers

Other
https://openalex.org/W2894062218
DOI
10.36001/phmconf.2018.v10i1.541

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
Egypt

References

  • https://openalex.org/W1257729321
  • https://openalex.org/W1495385950
  • https://openalex.org/W1541147580
  • https://openalex.org/W1574148909
  • https://openalex.org/W1592156384
  • https://openalex.org/W1610496399
  • https://openalex.org/W1622055787
  • https://openalex.org/W1802346448
  • https://openalex.org/W1980941942
  • https://openalex.org/W2011833769
  • https://openalex.org/W2039846817
  • https://openalex.org/W2077284034
  • https://openalex.org/W2151038992
  • https://openalex.org/W2487532682
  • https://openalex.org/W654315060
  • https://openalex.org/W79139011