PatCluster: A Top-Down Log Parsing Method Based on Frequent Words
Description
Logs are a combination of static message type fields and dynamic variable fields, and the accuracy of log parsing affects the result of subsequent log analysis tasks. In this regard, an offline log parsing method based on frequent words is introduced: PatCluster. This method first generates root nodes by preprocessing; secondly, the frequency of words is counted, and the word with the largest frequency is extracted as the segmentation condition to refine the template generated by the root node. So on recursively, pattern nodes are formed for all elements of the nodes, and corresponding templates are generated to finally achieve the purpose of log pattern mining. The mining process of the log patterns is from coarse to fine which is based on fewer assumptions, and the pattern fitting depth can be controlled by adjusting the termination condition. In optimized algorithm model, we also consider the maximum extent of the log template matching the token in the log message. The experimental results show that this method effectively improves the log parsing quality and has higher log parsing accuracy than other methods, and is more suitable for handling logs with complex structures.
Translated Descriptions
Translated Description (Arabic)
السجلات هي مزيج من حقول نوع الرسالة الثابتة وحقول المتغيرات الديناميكية، وتؤثر دقة تحليل السجل على نتيجة مهام تحليل السجل اللاحقة. في هذا الصدد، يتم تقديم طريقة تحليل السجل دون اتصال بالإنترنت بناءً على الكلمات المتكررة: PatCluster. تقوم هذه الطريقة أولاً بإنشاء العقد الجذرية عن طريق المعالجة المسبقة ؛ ثانيًا، يتم حساب تكرار الكلمات، ويتم استخراج الكلمة ذات التردد الأكبر كشرط التجزئة لتنقيح القالب الذي تم إنشاؤه بواسطة العقدة الجذرية. لذلك بشكل متكرر، يتم تشكيل عقد الأنماط لجميع عناصر العقد، ويتم إنشاء القوالب المقابلة لتحقيق الغرض من التنقيب عن أنماط السجل في النهاية. عملية تعدين أنماط السجل من الخشنة إلى الدقيقة التي تستند إلى افتراضات أقل، ويمكن التحكم في عمق تركيب النمط عن طريق ضبط حالة الإنهاء. في نموذج الخوارزمية المحسّن، نأخذ في الاعتبار أيضًا الحد الأقصى لنموذج السجل الذي يطابق الرمز المميز في رسالة السجل. تُظهر النتائج التجريبية أن هذه الطريقة تعمل بشكل فعال على تحسين جودة تحليل السجل ولديها دقة تحليل سجل أعلى من الطرق الأخرى، وهي أكثر ملاءمة للتعامل مع السجلات ذات الهياكل المعقدة.Translated Description (French)
Les journaux sont une combinaison de champs de type de message statique et de champs de variables dynamiques, et la précision de l'analyse des journaux affecte le résultat des tâches d'analyse des journaux ultérieures. À cet égard, une méthode d'analyse des journaux hors ligne basée sur des mots fréquents est introduite : PatCluster. Ce procédé génère d'abord des nœuds racines par prétraitement ; deuxièmement, la fréquence des mots est comptée, et le mot avec la plus grande fréquence est extrait en tant que condition de segmentation pour affiner le modèle généré par le nœud racine. Ainsi, de manière récursive, des nœuds de modèle sont formés pour tous les éléments des nœuds, et des modèles correspondants sont générés pour finalement atteindre le but de l'exploration de modèle de journal. Le processus d'extraction des motifs de bûches va de grossier à fin, ce qui est basé sur moins d'hypothèses, et la profondeur d'ajustement des motifs peut être contrôlée en ajustant la condition de terminaison. Dans le modèle d'algorithme optimisé, nous considérons également l'étendue maximale du modèle de journal correspondant au jeton dans le message de journal. Les résultats expérimentaux montrent que cette méthode améliore efficacement la qualité de l'analyse des journaux et a une précision d'analyse des journaux plus élevée que les autres méthodes, et est plus appropriée pour la manipulation de journaux avec des structures complexes.Translated Description (Spanish)
Los registros son una combinación de campos de tipo de mensaje estático y campos de variable dinámica, y la precisión del análisis de registros afecta el resultado de las tareas de análisis de registros posteriores. En este sentido, se introduce un método de análisis de registros sin conexión basado en palabras frecuentes: PatCluster. Este método primero genera nodos raíz mediante preprocesamiento; en segundo lugar, se cuenta la frecuencia de las palabras y se extrae la palabra con la mayor frecuencia como condición de segmentación para refinar la plantilla generada por el nodo raíz. Entonces, de forma recursiva, se forman nodos de patrones para todos los elementos de los nodos y se generan las plantillas correspondientes para finalmente lograr el propósito de la minería de patrones de registro. El proceso de extracción de los patrones de registro es de grueso a fino, lo que se basa en menos supuestos, y la profundidad de ajuste del patrón se puede controlar ajustando la condición de terminación. En el modelo de algoritmo optimizado, también consideramos la extensión máxima de la plantilla de registro que coincide con el token en el mensaje de registro. Los resultados experimentales muestran que este método mejora efectivamente la calidad del análisis de registros y tiene una mayor precisión de análisis de registros que otros métodos, y es más adecuado para el manejo de registros con estructuras complejas.Files
10024775.pdf.pdf
Files
(245 Bytes)
| Name | Size | Download all |
|---|---|---|
|
md5:8ace959c1e8f47278e37c76d01a68502
|
245 Bytes | Preview Download |
Additional details
Additional titles
- Translated title (Arabic)
- PatCluster: طريقة تحليل السجل من أعلى إلى أسفل بناءً على الكلمات المتكررة
- Translated title (French)
- PatCluster : une méthode d'analyse des journaux descendante basée sur des mots fréquents
- Translated title (Spanish)
- PatCluster: un método de análisis de registros de arriba hacia abajo basado en palabras frecuentes
Identifiers
- Other
- https://openalex.org/W4317795039
- DOI
- 10.1109/access.2023.3239012
References
- https://openalex.org/W1661413208
- https://openalex.org/W1994625872
- https://openalex.org/W2076809217
- https://openalex.org/W2102632804
- https://openalex.org/W2126529005
- https://openalex.org/W2153470728
- https://openalex.org/W2208211896
- https://openalex.org/W2515007666
- https://openalex.org/W2536393303
- https://openalex.org/W2754665629
- https://openalex.org/W2769838334
- https://openalex.org/W2792207129
- https://openalex.org/W2895810692
- https://openalex.org/W2963999143
- https://openalex.org/W2990630613
- https://openalex.org/W3035050709
- https://openalex.org/W3049121060
- https://openalex.org/W4285132998