[P] Optimal Data Selection from Sentiment-Rating Analysis for Improving Recommendation Systems
Published in 한국지능시스템학회 춘계학술대회 발표논문집, 2025
Abstract
추천 시스템은 전자 상거래에서 사용자 선호를 파악하고 개인화된 경험을 제공하는 데 필수적이다. 그러나 리뷰의 감정과 해당 평점 간의 불일치는 모델 성능을 저해하는 노이즈를 발생시킨다. 이 문제를 해결하기 위해, 본 연구에서는 Manhattan Distance를 이용해 감정‑평점 정렬도를 정량화하고, 데이터를 다음 네 가지 유형으로 분류하는 감정 인지 데이터 선택 기법을 제안한다:비확신(non‑confident), 일관된(consistent), 불확실한(uncertain), 불일치(inconsistent). 이 분류를 통해 추천 모델 학습에 최적의 데이터 조합을 탐색할 수 있다. DeepCoNN 기반 아키텍처에 적용한 실험에서는 다양한 확신 임계치와 배치 크기 조건에서 15가지 데이터 조합을 평가했다. 그 결과, 적당한 감정‑평점 불일치가 존재하는 ‘불확실한(uncertain)’ 데이터만으로 학습했을 때 MSE가 가장 낮게 나타나 일반화 성능이 향상됨을 확인했다. 이러한 결과는 감정 기반 데이터 선택이 추천 시스템 성능을 높이는 효과적인 전략임을 시사한다.
Recommender systems are essential in e-commerce for capturing user preferences and delivering personalized experiences. However, discrepancies between review sentiments and corresponding ratings often introduce noise that hinders model performance. To address this challenge, we propose a sentiment-aware data selection method that quantifies sentiment-rating alignment using Manhattan distance and categorizes data into four types: non-confident, consistent, uncertain, and inconsistent. This classification enables us to explore optimal data compositions for training recommendation models. Applied to a DeepCoNN-based architecture, our experiments evaluate 15 data combinations under various confidence thresholds and batch sizes. Results show that training solely with “uncertain” data—where moderate sentiment-rating misalignment exists— achieves the lowest mean squared error (MSE), indicating improved generalization. These findings highlight the potential of sentiment-guided data selection as an effective strategy to enhance recommendation system performance.
Recommended citation: 김상민, 최재준, & 추상현*. Optimal Data Selection from Sentiment-Rating Analysis for Improving Recommendation Systems. 한국지능시스템학회 춘계학술대회 발표논문집, 2025, 제35권 1호, pp. 223-224.
