Résumé de la thèse:
Dans le contexte actuel de surcharge causée par l'important volume de données numériques accessibles, les systèmes de recommandation permettent de guider l'utilisateur dans ses activités d'apprentissages, d'achats, de loisir, d'écoute musicale, de lectures..., en lui suggérant des items personnalisés. Pour cela, ils prédisent ses préférences relativement aux items qu'il n'a pas encore évalués. Des approches classiques de recommandation, comme le filtrage collaboratif par exemple, reposent sur les données collectées par le biais de retours d'utilisateurs, généralement sous la forme d'une matrice de notes, et tentent d'y découvrir les informations pertinentes pour caractériser et prédire les goûts des utilisateurs. En complément de ces données, les connaissances liées aux items eux-mêmes représentent également un atout majeur pour l'amélioration des performances des systèmes de recommandation. L'ingénierie des connaissances, plus spécifiquement le Web sémantique et les graphes de connaissances, peuvent y jouer un rôle central. Tel est le cadre de notre travail de recherche qui propose différentes voies d'amélioration des systèmes de recommandation, adoptant une vision transversale « des données aux connaissances », et ce sur trois aspects différents : la pertinence (accuracy), la diversification et l'explicabilité des recommandations.
Notre première contribution est principalement axée sur les données. Elle concerne l'accuracy des recommandations en termes de prédiction des goûts des utilisateurs. Nous proposons EBCR (Empirical Bayes Concordance Ratio), une méthode simple et générique inspirée de l'inférence bayésienne, qui permet d'ajuster les calculs de similarité entre utilisateurs (ou entre items) mis en œuvre dans le filtrage collaboratif. Cet ajustement est réalisé en fonction du nombre d'items co-notés (ou du nombre d'utilisateurs ayant noté un même item). Les expériences menées sur des jeux de données de référence ont confirmé que cette méthode améliore systématiquement l'accuracy du filtrage collaboratif pour toutes les mesures de similarité considérées.
Notre deuxième contribution concerne la diversification des recommandations. Nous avons mené une étude approfondie visant à comparer et analyser la performance de sept modèles de recommandation incluant des modèles classiques comme le filtrage collaboratif et le facteur latent ainsi que ceux, plus récents, se basant sur les réseaux de neurones profonds ou les plongements (embeddings) de graphe de connaissances. Nous avons évalué leur capacité à fournir des items diversifiés et proposé une approche qui permet d'ajuster la diversité aux besoins spécifiques des utilisateurs. Afin d'estimer la diversité des recommandations, nous avons considéré des mesures de similarité sémantique en tirant parti des connaissances liées aux items à l'aide du Web sémantique.
Enfin, notre troisième contribution concerne l'explicabilité des recommandations. Ici, nous exploitons plus en profondeur les connaissances du domaine, en proposant une approche de l'explication post-hoc des recommandations qui considère efficacement la hiérarchie des concepts au sein du graphe de connaissances de DBpedia. Les résultats de l'évaluation de notre approche basée sur une étude comprenant 155 participants suggèrent des améliorations significatives en termes d'engagement, de confiance et de persuasion.
Abstract :
In the current information overload context caused by the large volume of accessible digital data, recommender systems allow to guide the user in his/her learning, shopping, leisure, music listening, reading activities..., by suggesting personalized items. To do so, recommendation models predict users' preferences for their unrated items. Classical recommendation approaches, such as collaborative filtering, for example, rely on data collected through user feedback, usually in the form of a rating matrix, and try to discover relevant information to characterize and predict user tastes. In addition to the user feedback data, the knowledge related to items themselves also represents a major asset for improving the performance of recommendation systems. Knowledge engineering, more specifically the semantic Web and knowledge graphs, can play a central role. In this context, our research works propose different ways to improve recommendation systems, adopting a “from-data-to-knowledge” transversal vision, and consider three different recommendation aspects: accuracy, diversification and explicability.
Our first contribution is mainly focused on pure user feedback data. It aims at improving the accuracy of recommendations in terms of the prediction of users’ tastes. We propose EBCR (Empirical Bayes Concordance Ratio), a simple and generic method inspired by Bayesian inference, which allows to adjust the similarity computations between users (or between items) in collaborative filtering, according to the number of co-rated items (or the number of users having rated the same item). Experiments conducted on benchmark datasets have confirmed that this method systematically improves the predictive accuracy of collaborative filtering for all considered similarity measures.
Our second contribution concerns the diversification of recommendations. We have conducted an in-depth study to compare and analyze the performance of seven recommendation models including classical models such as collaborative filtering and latent factor models as well as more recent ones based on deep neural networks and knowledge graph embeddings. We have evaluated their ability to provide diversified items and proposed an approach that allows adjusting diversity to specific user needs. In order to estimate the diversity of recommendations, we considered semantic similarity measures by leveraging the semantic Web and knowledge graphs.
Finally, our third contribution concerns the explicability of recommendations. Here, we further exploit domain knowledge and propose a post-hoc recommendation explanation approach that effectively accounts for the hierarchy of item properties within the DBpedia knowledge graph. Evaluation results of our approach based on an online user study including 155 participants suggest significant improvements in terms of engagement, trust and persuasion.