Published January 1, 2019 | Version v1
Publication Open

Association rule mining algorithm based on Spark for pesticide transaction data analyses

  • 1. Ministry of Agriculture and Rural Affairs
  • 2. China Agricultural University

Description

With the development of smart agriculture, the accumulation of data in the field of pesticide regulation has a certain scale. The pesticide transaction data collected by the Pesticide National Data Center alone produces more than 10 million records daily. However, due to the backward technical means, the existing pesticide supervision data lack deep mining and usage. The Apriori algorithm is one of the classic algorithms in association rule mining, but it needs to traverse the transaction database multiple times, which will cause an extra IO burden. Spark is an emerging big data parallel computing framework with advantages such as memory computing and flexible distributed data sets. Compared with the Hadoop MapReduce computing framework, IO performance was greatly improved. Therefore, this paper proposed an improved Apriori algorithm based on Spark framework, ICAMA. The MapReduce process was used to support the candidate set and then to generate the candidate set. After experimental comparison, when the data volume exceeds 250 Mb, the performance of Spark-based Apriori algorithm was 20% higher than that of the traditional Hadoop-based Apriori algorithm, and with the increase of data volume, the performance improvement was more obvious. Keywords: Spark, association rule mining, ICAMA algorithm, big data, pesticide regulation, MapReduce DOI: 10.25165/j.ijabe.20191205.4881 Citation: Bai X N, Jia J D, Wei Q W, Huang S Q, Du W C, Gao W L. Association rule mining algorithm based on Spark for pesticide transaction data analyses. Int J Agric & Biol Eng, 2019; 12(5): 162–166.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

مع تطور الزراعة الذكية، فإن تراكم البيانات في مجال تنظيم مبيدات الآفات له نطاق معين. تنتج بيانات معاملات مبيدات الآفات التي يجمعها مركز البيانات الوطني لمبيدات الآفات وحده أكثر من 10 ملايين سجل يوميًا. ومع ذلك، نظرًا للوسائل التقنية المتخلفة، تفتقر بيانات الإشراف على مبيدات الآفات الحالية إلى التعدين والاستخدام العميق. تعد خوارزمية Apriori واحدة من الخوارزميات الكلاسيكية في تعدين قواعد الارتباط، ولكنها تحتاج إلى اجتياز قاعدة بيانات المعاملات عدة مرات، مما سيسبب عبئًا إضافيًا على الإدخال/الإخراج. سبارك هو إطار عمل ناشئ للحوسبة المتوازية للبيانات الضخمة مع مزايا مثل حوسبة الذاكرة ومجموعات البيانات الموزعة المرنة. بالمقارنة مع إطار حوسبة Hadoop MapReduce، تم تحسين أداء الإدخال/الإخراج بشكل كبير. لذلك، اقترحت هذه الورقة خوارزمية Apriori محسنة بناءً على إطار عمل سبارك، ICAMA. تم استخدام عملية MapReduce لدعم مجموعة المرشحين ثم إنشاء مجموعة المرشحين. بعد المقارنة التجريبية، عندما يتجاوز حجم البيانات 250 ميجابايت، كان أداء خوارزمية أبريوري القائمة على سبارك أعلى بنسبة 20 ٪ من خوارزمية أبريوري التقليدية القائمة على هادوب، ومع زيادة حجم البيانات، كان تحسين الأداء أكثر وضوحًا. الكلمات المفتاحية: سبارك، تعدين قواعد الجمعيات، خوارزمية ICAMA، البيانات الضخمة، تنظيم مبيدات الآفات، MapReduce DOI: 10.25165/j.ijabe.20191205.4881 الاقتباس: باي إكس إن، جيا جي دي، وي كيو دبليو، هوانغ إس كيو، دو دبليو سي، غاو دبليو إل. خوارزمية تعدين قواعد الجمعية بناءً على سبارك لتحليل بيانات معاملات مبيدات الآفات. Int J Agric & Biol Eng، 2019 ؛ 12(5): 162–166.

Translated Description (French)

Avec le développement de l'agriculture intelligente, l'accumulation de données dans le domaine de la réglementation des pesticides a une certaine ampleur. Les données sur les transactions de pesticides collectées par le Pesticide National Data Center produisent à elles seules plus de 10 millions d'enregistrements par jour. Cependant, en raison des moyens techniques en amont, les données de supervision des pesticides existantes manquent d'extraction et d'utilisation en profondeur. L'algorithme Apriori est l'un des algorithmes classiques de l'extraction de règles d'association, mais il doit parcourir la base de données de transactions plusieurs fois, ce qui entraînera un fardeau d'E/S supplémentaire. Spark est un framework de calcul parallèle Big Data émergent avec des avantages tels que l'informatique de mémoire et des ensembles de données distribués flexibles. Par rapport au framework informatique Hadoop MapReduce, les performances d'E/S ont été considérablement améliorées. Par conséquent, cet article a proposé un algorithme Apriori amélioré basé sur le cadre Spark, ICAMA. Le processus MapReduce a été utilisé pour prendre en charge l'ensemble de candidats, puis pour générer l'ensemble de candidats. Après comparaison expérimentale, lorsque le volume de données dépasse 250 Mo, les performances de l'algorithme Apriori basé sur Spark étaient 20 % plus élevées que celles de l'algorithme traditionnel Apriori basé sur Hadoop, et avec l'augmentation du volume de données, l'amélioration des performances était plus évidente. Keywords : Spark, association rule mining, ICAMA algorithm, big data, pesticide regulation, MapReduce DOI : 10.25165/j.ijabe.20191205.4881 Citation : Bai X N, Jia J D, Wei Q W, Huang S Q, Du W C, Gao W L. Association rule mining algorithm based on Spark for pesticide transaction data analyses. Int J Agric & Biol Eng, 2019 ; 12(5) : 162–166.

Translated Description (Spanish)

Con el desarrollo de la agricultura inteligente, la acumulación de datos en el campo de la regulación de plaguicidas tiene una cierta escala. Solo los datos de transacciones de plaguicidas recopilados por el Centro Nacional de Datos de Plaguicidas producen más de 10 millones de registros diarios. Sin embargo, debido a los medios técnicos atrasados, los datos de supervisión de plaguicidas existentes carecen de minería profunda y uso. El algoritmo Apriori es uno de los algoritmos clásicos en la minería de reglas de asociación, pero necesita recorrer la base de datos de transacciones varias veces, lo que causará una carga adicional de E/S. Spark es un marco emergente de computación paralela de big data con ventajas como la computación de memoria y los conjuntos flexibles de datos distribuidos. En comparación con el marco informático Hadoop MapReduce, el rendimiento de las E/S mejoró considerablemente. Por lo tanto, este documento propuso un algoritmo Apriori mejorado basado en el marco Spark, ICAMA. El proceso MapReduce se utilizó para admitir el conjunto de candidatos y luego para generar el conjunto de candidatos. Después de la comparación experimental, cuando el volumen de datos supera los 250 Mb, el rendimiento del algoritmo Apriori basado en Spark fue un 20% más alto que el del algoritmo Apriori tradicional basado en Hadoop, y con el aumento del volumen de datos, la mejora del rendimiento fue más obvia. Palabras clave: Spark, minería de reglas de asociación, algoritmo ICAMA, big data, regulación de plaguicidas, MapReduce DOI: 10.25165/j.ijabe.20191205.4881 Cita: Bai X N, Jia J D, Wei Q W, Huang S Q, Du W C, Gao W L. Algoritmo de minería de reglas de asociación basado en Spark para análisis de datos de transacciones de plaguicidas. Int J Agric & Biol Eng, 2019; 12(5): 162–166.

Files

pdf.pdf

Files (226 Bytes)

⚠️ Please wait a few minutes before your translated files are ready ⚠️ Note: Some files might be protected thus translations might not work.
Name Size Download all
md5:5360980bad11bf9723da89687501effc
226 Bytes
Preview Download

Additional details

Additional titles

Translated title (Arabic)
خوارزمية تعدين قواعد الجمعية بناءً على تحليلات سبارك لبيانات معاملات مبيدات الآفات
Translated title (French)
Algorithme d'exploration de règles d'association basé sur Spark pour les analyses de données de transaction de pesticides
Translated title (Spanish)
Algoritmo de minería de reglas de asociación basado en Spark para análisis de datos de transacciones de pesticidas

Identifiers

Other
https://openalex.org/W4231099770
DOI
10.25165/j.ijabe.20191205.4881

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
China