Çok dilli duygu analizi

No Thumbnail Available

Date

2024

Journal Title

Journal ISSN

Volume Title

Publisher

Ankara Üniversitesi

Abstract

Duygu analizi, makine öğrenmesi ve doğal dil işleme tekniklerini kullanarak metinlerdeki duyguları ortaya çıkarmayı amaçlayan bir çalışma alanıdır. Sosyal medya paylaşımları, ürün ve hizmet yorumları, otel ve film yorumları, haber metinleri ve kitaplar duygu analizi için başlıca veri kaynaklarıdır. Sosyal medya başta olmak üzere sosyal platformlarda kullanıcı ve paylaşım sayıları hızla artmaktadır. Sosyal platformlara dünyanın her yerinden erişim imkanı olması sonucu ortaya çok dilli veri yığınları çıkmaktadır. Ürün, hizmet veya kişiler hakkında ifade edilen görüşleri analiz edip karar süreçlerine dahil etmek önemli avantajlar sağlamaktadır ancak kaynaklar ve geliştirilen yöntemler her dil için yeterli düzeyde bulunmamaktadır. Bununla başa çıkmak için çeşitli çok dilli duygu analizi sistemleri geliştirilmiştir. Bu tez çalışmasında çok dilli duygu analizi yapmak amacıyla sağlık, turizm, pazarlama ve eğitim alanlarında İngilizce, Almanca, Felemenkçe dillerindeki tüketici görüşlerini içeren MultiEmo veri seti kullanılmıştır. MultiEmo çok dilli duygu analizi görevleri için oluşturulmuş bir veri setidir. Tüketici görüşleri Türkçe diline çevrilerek veri setine dahil edilmiştir. Cümle düzeyinde temsil yapan ve önceden eğitilmiş bir derin öğrenme modeli olan çok dilli evrensel cümle kodlayıcı (MUSE) kullanılarak veri seti vektörler ile temsil edilmiştir. Daha sonra kosinüs benzerliği kullanılarak cümleler pozitif veya negatif olarak sınıflandırılmıştır. Bu yaklaşım ile her dil ve her domain için ayrı ayrı model geliştirmek yerine derin öğrenme yaklaşımları kullanılarak başarılı sonuçlar elde edildiği görülmüştür. Yapılan sınıflandırma sonucunda İngilizce dilinde 0.75, Türkçe dilinde 0.72 doğruluk oranı elde edilmiştir. Sentiment analysis is a field of study that aims to reveal emotions in texts using machine learning and natural language processing techniques. Social media posts, product and service reviews, hotel and movie reviews, news texts, and books are the main data sources for sentiment analysis. The number of users and shares is rapidly increasing on social platforms, especially social media. Multilingual data stacks emerge as a result of access to social platforms from all over the world. Analyzing the opinions expressed about products, services, or people and including them in decision-making processes provides significant advantages, but the resources and developed methods are not sufficient for every language. Various multilingual sentiment analysis systems have been developed to deal with this. In this thesis, the MultiEmo dataset, which contains consumer opinions in English, German and Dutch in the fields of health, tourism, marketing and education, was used to conduct multilingual sentiment analysis. MultiEmo is a dataset created for multilingual sentiment analysis tasks. Consumer opinions were translated into Turkish and included in the data set. The data set was represented with vectors using the multilingual universal sentence encoder (MUSE), which is a pre-trained deep learning model that represents at the sentence level. Sentences were then classified as positive or negative using cosine similarity. With this approach, it has been observed that successful results have been achieved by using deep learning approaches instead of developing separate models for each language and each domain. As a result of the classification, an accuracy rate of 0.75 in English and 0.72 in Turkish was obtained.

Description

Keywords

Çok dilli duygu analizi, makine öğrenmesi, derin öğrenme, çok dilli evrensel cümle kodlayıcı

Citation