To Cluster or Not to Cluster: The Impact of Clustering on the Performance of Aspect-Based Collaborative Filtering
Creators
- 1. Taiz University
- 2. National University of Malaysia
- 3. Prince Sattam Bin Abdulaziz University
- 4. Imam Mohammad ibn Saud Islamic University
- 5. Amran University
- 6. University of Mysore
Description
Collaborative filtering (CF) is one of the most widely utilised approaches in recommendation techniques.It suggests items to users based on the ratings of other users who share their preferences.Thus, one of the aims of CF is to find reliable neighbours.Typically, CF produces a sparse user-item rating matrix, when relying only on the ratings to identify the precise neighbours, resulting in poor performance.User reviews can be essential in overcoming those situations because of the diverse elements available in reviews.The most popular element is aspects, which can provide a fine-grained analysis of users' behaviours, thus improving personalised recommendations.However, increasing the number of aspects also results in sparsity, therefore may deteriorate the recommendation performance.As a result, clustering of aspects may lessen this sparsity, but it is yet unclear how much this would affect th e performance of CF systems.This study proposes a CF approach based on aspect clustering that addresses the above issue in terms of rating prediction.The approach aims to reduce the sparseness in the multi-criteria rating matrix by grouping aspects into clusters based on their semantic similarity, which will be less expensive and require less memory to discover the neighbourhood set.Our approach extracts aspects and represents them using Google's pre-trained Word2vec model.Then, aspects are organised into clusters using the K-means clustering algorithm.Multi-dimensional Euclidean distance is used as a similarity measure for finding the appropriate neighbours and predicted ratings of unseen items are then made using the kNN algorithm.This study also identifies the number of aspects that significantly impacts CF performance.Experiments are carried out using a real large-scale dataset: the Amazon movie dataset.Evaluation is also performed by comparing CF performance of the proposed approach with three different baseline approaches.Results show that the proposed approach improves CF performance compared to other approaches in terms of three predictive accuracy metrics.
Translated Descriptions
Translated Description (Arabic)
التصفية التعاونية هي واحدة من أكثر الأساليب المستخدمة على نطاق واسع في تقنيات التوصية. فهي تقترح عناصر على المستخدمين بناءً على تقييمات المستخدمين الآخرين الذين يشاركونهم تفضيلاتهم. وبالتالي، فإن أحد أهداف التصفية التعاونية هو العثور على جيران موثوق بهم. عادةً ما تنتج التصفية التعاونية مصفوفة تصنيف لعنصر المستخدم متفرقة، عند الاعتماد فقط على التصنيفات لتحديد الجيران الدقيقين، مما يؤدي إلى ضعف الأداء. يمكن أن تكون مراجعات المستخدم ضرورية في التغلب على تلك المواقف بسبب العناصر المتنوعة المتاحة في المراجعات. العنصر الأكثر شيوعًا هو الجوانب، والتي يمكن أن توفر تحليلاً دقيقًا لسلوكيات المستخدمين، وبالتالي تحسين التوصيات الشخصية. ومع ذلك، فإن زيادة عدد الجوانب تؤدي أيضًا إلى الندرة، وبالتالي قد تؤدي إلى تدهور أداء التوصية. ونتيجة لذلك، قد يقلل تجميع الجوانب من هذا الندرة، ولكن لم يتضح بعد مدى تأثير ذلك على أداء أنظمة CF. تقترح هذه الدراسة نهج CF بناءً على تجميع الجوانب الذي يعالج المشكلة المذكورة أعلاه من حيث التنبؤ بالتصنيف. يهدف النهج إلى تقليل الندرة في مصفوفة التصنيف متعددة المعايير من خلال تجميع الجوانب في مجموعات بناءً على تشابهها الدلالي، والذي سيكون أقل تكلفة ويتطلب ذاكرة أقل لاكتشاف مجموعة الحي. يستخرج نهجنا الجوانب ويمثلها باستخدام نموذج Word2vec المدرب مسبقًا من Google. ثم يتم تنظيم الجوانب في مجموعات باستخدام خوارزمية تجميع K - means. يتم استخدام المسافة الإقليدية متعددة الأبعاد كمقياس تشابه للعثور على الجيران المناسبين ويتم بعد ذلك إجراء التقييمات المتوقعة للعناصر غير المرئية باستخدام خوارزمية kNN. تحدد هذه الدراسة أيضًا عدد الجوانب التي تؤثر بشكل كبير على أداء CF. يتم إجراء التجارب باستخدام مجموعة بيانات حقيقية واسعة النطاق: مجموعة بيانات فيلم Amazon. يتم إجراء التقييم أيضًا من خلال مقارنة أداء CF للنهج المقترح بثلاثة مناهج أساسية مختلفة. تظهر النتائج أن النهج المقترح يحسن أداء CF مقارنة بالنهج الأخرى من حيث ثلاثة مقاييس دقة تنبؤية.Translated Description (French)
Le filtrage collaboratif (FPC) est l'une des approches les plus largement utilisées dans les techniques de recommandation. Il suggère des éléments aux utilisateurs en fonction des évaluations d'autres utilisateurs qui partagent leurs préférences. Ainsi, l'un des objectifs de la FPC est de trouver des voisins fiables. Typiquement, la FPC produit une matrice d'évaluation des éléments utilisateur clairsemée, lorsqu'elle ne s'appuie que sur les évaluations pour identifier les voisins précis, ce qui entraîne de mauvaises performances. Les évaluations des utilisateurs peuvent être essentielles pour surmonter ces situations en raison des divers éléments disponibles dans les évaluations. L'élément le plus populaire est les aspects, qui peut fournir une analyse fine des comportements des utilisateurs, améliorant ainsi les recommandations personnalisées.Toutefois, l'augmentation du nombre d'aspects entraîne également une rareté, ce qui peut détériorer les performances des recommandations.En conséquence, le regroupement d'aspects peut réduire cette rareté, mais on ne sait pas encore dans quelle mesure cela affecterait les performances des systèmes d'AC.Cette étude propose une approche d'AC basée sur le regroupement d'aspects qui aborde la question ci-dessus en termes de prédiction de notation.L' approche vise à réduire la rareté de la matrice de notation multicritères en regroupant les aspects en groupes sur la base de leur similitude sémantique, qui sera moins coûteuse et nécessitera moins de mémoire pour découvrir l'ensemble de voisinage. Notre approche extrait les aspects et les représente à l'aide du modèle Word2vec pré-entraîné de Google. Ensuite, les aspects sont organisés en grappes à l'aide de l'algorithme de clustering K-means. La distance euclidienne multidimensionnelle est utilisée comme mesure de similitude pour trouver les voisins appropriés et les évaluations prédites des éléments invisibles sont ensuite effectuées à l'aide de l'algorithme kNN. Cette étude identifie également le nombre d'aspects qui ont un impact significatif sur les performances de CF. Les expériences sont réalisées à l'aide d'un véritable ensemble de données à grande échelle : l'ensemble de données de film Amazon. L'évaluation est également effectuée en comparant les performances de CF de l'approche proposée avec trois approches de base différentes. Les résultats montrent que l'approche proposée améliore les performances de CF par rapport à d'autres approches en termes de trois mesures de précision prédictives.Translated Description (Spanish)
El filtrado colaborativo (FC) es uno de los enfoques más utilizados en las técnicas de recomendación. Sugiere elementos a los usuarios en función de las calificaciones de otros usuarios que comparten sus preferencias. Por lo tanto, uno de los objetivos de la FC es encontrar vecinos confiables. Típicamente, la FC produce una matriz de calificación de elementos de usuario dispersa, cuando se basa solo en las calificaciones para identificar a los vecinos precisos, lo que resulta en un bajo rendimiento. Las revisiones de los usuarios pueden ser esenciales para superar esas situaciones debido a los diversos elementos disponibles en las revisiones. El elemento más popular son los aspectos, que puede proporcionar un análisis detallado de los comportamientos de los usuarios, mejorando así las recomendaciones personalizadas. Sin embargo, aumentar el número de aspectos también resulta en escasez, por lo tanto, puede deteriorar el rendimiento de la recomendación. Como resultado, la agrupación de aspectos puede disminuir esta escasez, pero aún no está claro cuánto afectaría esto al rendimiento de los sistemas de CF. Este estudio propone un enfoque de CF basado en la agrupación de aspectos que aborda el problema anterior en términos de predicción de calificación. El enfoque tiene como objetivo reducir la escasez en la matriz de calificación multicriterio agrupando los aspectos en grupos en función de su similitud semántica, que será menos costosa y requerirá menos memoria para descubrir el conjunto de vecindarios. Nuestro enfoque extrae aspectos y los representa utilizando el modelo Word2vec previamente entrenado de Google. Luego, los aspectos se organizan en grupos utilizando el algoritmo de agrupamiento de K medias. La distancia euclidiana multidimensional se utiliza como una medida de similitud para encontrar los vecinos apropiados y las calificaciones predichas de elementos no vistos se realizan utilizando el algoritmo kNN. Este estudio también identifica la cantidad de aspectos que afectan significativamente el rendimiento de CF. Los experimentos se llevan a cabo utilizando un conjunto de datos a gran escala real: el conjunto de datos de películas de Amazon. La evaluación también se realiza comparando el rendimiento de CF del enfoque propuesto con tres enfoques de referencia diferentes. Los resultados muestran que el enfoque propuesto mejora el rendimiento de CF en comparación con otros enfoques en términos de tres métricas de precisión predictiva.Files
10107993.pdf.pdf
Files
(245 Bytes)
| Name | Size | Download all |
|---|---|---|
|
md5:d66ef298bcf384c72449aa399b7491c3
|
245 Bytes | Preview Download |
Additional details
Additional titles
- Translated title (Arabic)
- التجميع أو عدم التجميع: تأثير التجميع على أداء التصفية التعاونية القائمة على الجوانب
- Translated title (French)
- Regrouper ou ne pas regrouper : l'impact du regroupement sur la performance du filtrage collaboratif basé sur les aspects
- Translated title (Spanish)
- Agrupar o no agrupar: el impacto de la agrupación en el rendimiento del filtrado colaborativo basado en aspectos
Identifiers
- Other
- https://openalex.org/W4367031915
- DOI
- 10.1109/access.2023.3270260
References
- https://openalex.org/W1614298861
- https://openalex.org/W1938421469
- https://openalex.org/W1972156947
- https://openalex.org/W1987068480
- https://openalex.org/W1997377854
- https://openalex.org/W2013427808
- https://openalex.org/W2037351199
- https://openalex.org/W2049478259
- https://openalex.org/W2061873838
- https://openalex.org/W2084127140
- https://openalex.org/W2085276903
- https://openalex.org/W2092780433
- https://openalex.org/W2111162011
- https://openalex.org/W2114433479
- https://openalex.org/W2200988052
- https://openalex.org/W2278353820
- https://openalex.org/W2333266781
- https://openalex.org/W2441496199
- https://openalex.org/W2580878117
- https://openalex.org/W2596285588
- https://openalex.org/W2606749808
- https://openalex.org/W2624653984
- https://openalex.org/W2742657630
- https://openalex.org/W2747494806
- https://openalex.org/W2788953034
- https://openalex.org/W2799579227
- https://openalex.org/W2892570000
- https://openalex.org/W2905305843
- https://openalex.org/W2942878061
- https://openalex.org/W2950974174
- https://openalex.org/W2963337756
- https://openalex.org/W2965805264
- https://openalex.org/W2966937748
- https://openalex.org/W2982225079
- https://openalex.org/W2991420365
- https://openalex.org/W3006061359
- https://openalex.org/W3091875091
- https://openalex.org/W3092723932
- https://openalex.org/W3096677679
- https://openalex.org/W3097103183
- https://openalex.org/W3108127110
- https://openalex.org/W3109575922
- https://openalex.org/W3119339920
- https://openalex.org/W3126805253
- https://openalex.org/W3168663695
- https://openalex.org/W3188048704
- https://openalex.org/W3201566571
- https://openalex.org/W3201841349
- https://openalex.org/W3204266596
- https://openalex.org/W4211162995
- https://openalex.org/W4225565607
- https://openalex.org/W4226195494
- https://openalex.org/W4289435132
- https://openalex.org/W4312581961