Published June 29, 2023 | Version v1
Publication Open

Multi-modal recommendation algorithm fusing visual and textual features

  • 1. Peking University
  • 2. Guizhou University

Description

In recommender systems, the lack of interaction data between users and items tends to lead to the problem of data sparsity and cold starts. Recently, the interest modeling frameworks incorporating multi-modal features are widely used in recommendation algorithms. These algorithms use image features and text features to extend the available information, which alleviate the data sparsity problem effectively, but they also have some limitations. On the one hand, multi-modal features of user interaction sequences are not considered in the interest modeling process. On the other hand, the aggregation of multi-modal features often employs simple aggregators, such as sums and concatenation, which do not distinguish the importance of different feature interactions. In this paper, to tackle this, we propose the FVTF (Fusing Visual and Textual Features) algorithm. First, we design a user history visual preference extraction module based on the Query-Key-Value attention to model users' historical interests by using of visual features. Second, we design a feature fusion and interaction module based on the multi-head bit-wise attention to adaptively mine important feature combinations and update the higher-order attention fusion representation of features. We conduct experiments on the Movielens-1M dataset, and the experiments show that FVTF achieved the best performance compared with the benchmark recommendation algorithms.

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

في أنظمة التوصية، يؤدي نقص بيانات التفاعل بين المستخدمين والعناصر إلى مشكلة ندرة البيانات وبدء التشغيل البارد. في الآونة الأخيرة، تم استخدام أطر نمذجة الاهتمامات التي تتضمن ميزات متعددة الوسائط على نطاق واسع في خوارزميات التوصية. تستخدم هذه الخوارزميات ميزات الصورة وميزات النص لتوسيع نطاق المعلومات المتاحة، مما يخفف من مشكلة ندرة البيانات بشكل فعال، ولكن لديها أيضًا بعض القيود. من ناحية، لا يتم النظر في السمات متعددة الوسائط لتسلسلات تفاعل المستخدم في عملية نمذجة الاهتمامات. من ناحية أخرى، غالبًا ما يستخدم تجميع الميزات متعددة الوسائط مجمعات بسيطة، مثل المجاميع والتسلسل، والتي لا تميز أهمية تفاعلات الميزات المختلفة. في هذه الورقة، لمعالجة هذا، نقترح خوارزمية FVTF (دمج الميزات المرئية والنصية). أولاً، نقوم بتصميم وحدة نمطية لاستخراج التفضيلات المرئية لسجل المستخدم بناءً على اهتمام Query - Key - Value بالاهتمامات التاريخية لمستخدمي النموذج باستخدام الميزات المرئية. ثانيًا، نقوم بتصميم وحدة دمج وتفاعل للميزات استنادًا إلى الاهتمام متعدد الرؤوس بالبت لاستخراج مجموعات الميزات المهمة بشكل تكيفي وتحديث تمثيل دمج الاهتمام العالي للميزات. نجري تجارب على مجموعة بيانات Movielens -1M، وتظهر التجارب أن FVTF حقق أفضل أداء مقارنة بخوارزميات التوصية المعيارية.

Translated Description (French)

Dans les systèmes de recommandation, le manque de données d'interaction entre les utilisateurs et les éléments tend à entraîner le problème de la rareté des données et des démarrages à froid. Récemment, les cadres de modélisation des intérêts intégrant des fonctionnalités multimodales sont largement utilisés dans les algorithmes de recommandation. Ces algorithmes utilisent des caractéristiques d'image et des caractéristiques de texte pour étendre les informations disponibles, ce qui atténue efficacement le problème de la rareté des données, mais ils ont également certaines limites. D'une part, les caractéristiques multimodales des séquences d'interaction utilisateur ne sont pas prises en compte dans le processus de modélisation d'intérêt. D'autre part, l'agrégation de caractéristiques multimodales utilise souvent des agrégateurs simples, tels que les sommes et la concaténation, qui ne distinguent pas l'importance des différentes interactions de caractéristiques. Dans cet article, pour y remédier, nous proposons l'algorithme FVTF (Fusing Visual and Textual Features). Tout d'abord, nous concevons un module d'extraction des préférences visuelles de l'historique de l'utilisateur basé sur l'attention Query-Key-Value aux intérêts historiques des utilisateurs du modèle en utilisant des caractéristiques visuelles. Deuxièmement, nous concevons un module de fusion et d'interaction de caractéristiques basé sur l'attention bit à bit à plusieurs têtes pour exploiter de manière adaptative les combinaisons de caractéristiques importantes et mettre à jour la représentation de fusion d'attention d'ordre supérieur des caractéristiques. Nous menons des expériences sur l'ensemble de données Movielens-1M, et les expériences montrent que FVTF a obtenu les meilleures performances par rapport aux algorithmes de recommandation de référence.

Translated Description (Spanish)

En los sistemas de recomendación, la falta de datos de interacción entre los usuarios y los elementos tiende a conducir al problema de la escasez de datos y los arranques en frío. Recientemente, los marcos de modelado de intereses que incorporan características multimodales se utilizan ampliamente en los algoritmos de recomendación. Estos algoritmos utilizan características de imagen y características de texto para ampliar la información disponible, lo que alivia el problema de la escasez de datos de manera efectiva, pero también tienen algunas limitaciones. Por un lado, las características multimodales de las secuencias de interacción del usuario no se consideran en el proceso de modelado de interés. Por otro lado, la agregación de características multimodales a menudo emplea agregadores simples, como sumas y concatenaciones, que no distinguen la importancia de las diferentes interacciones de características. En este artículo, para abordar esto, proponemos el algoritmo FVTF (Fusing Visual and Textual Features). En primer lugar, diseñamos un módulo de extracción de preferencias visuales del historial del usuario basado en la atención Query-Key-Value a los intereses históricos de los usuarios del modelo mediante el uso de características visuales. En segundo lugar, diseñamos un módulo de fusión e interacción de características basado en la atención por bits de múltiples cabezales para extraer de forma adaptativa combinaciones de características importantes y actualizar la representación de fusión de atención de orden superior de las características. Realizamos experimentos en el conjunto de datos Movielens-1M, y los experimentos muestran que FVTF logró el mejor rendimiento en comparación con los algoritmos de recomendación de referencia.

Files

journal.pone.0287927&type=printable.pdf

Files (1.4 MB)

⚠️ Please wait a few minutes before your translated files are ready ⚠️ Note: Some files might be protected thus translations might not work.
Name Size Download all
md5:7aca5ca7abf19346fd6905895d2b4fa1
1.4 MB
Preview Download

Additional details

Additional titles

Translated title (Arabic)
خوارزمية توصية متعددة الوسائط تدمج الميزات المرئية والنصية
Translated title (French)
Algorithme de recommandation multimodal fusionnant des caractéristiques visuelles et textuelles
Translated title (Spanish)
Algoritmo de recomendación multimodal que fusiona características visuales y textuales

Identifiers

Other
https://openalex.org/W4382600039
DOI
10.1371/journal.pone.0287927

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
China

References

  • https://openalex.org/W2090883204
  • https://openalex.org/W2163605009
  • https://openalex.org/W2194775991
  • https://openalex.org/W2295739661
  • https://openalex.org/W2475334473
  • https://openalex.org/W2523437372
  • https://openalex.org/W2604662567
  • https://openalex.org/W2741249238
  • https://openalex.org/W2768057138
  • https://openalex.org/W2786148882
  • https://openalex.org/W2793768763
  • https://openalex.org/W2808787330
  • https://openalex.org/W2963655167
  • https://openalex.org/W2964052347
  • https://openalex.org/W2964323458
  • https://openalex.org/W2964536660
  • https://openalex.org/W2965858015
  • https://openalex.org/W2982108874
  • https://openalex.org/W2998207486
  • https://openalex.org/W3024534448
  • https://openalex.org/W3093002391
  • https://openalex.org/W3101704389
  • https://openalex.org/W3121555120
  • https://openalex.org/W3165959525
  • https://openalex.org/W3192858411
  • https://openalex.org/W4205091644
  • https://openalex.org/W4244186786
  • https://openalex.org/W4385245566