PERFORMANCE COMPARISON OF LSTM, BILSTM AND CNN WITH MULTI-HEAD SELF-ATTENTION ON HATE SPEECH ANALYSIS
Kata Kunci:
Multi-Head Self Attention, LSTM, BiLSTM, CNN, Analisis SentimenAbstrak
Abstrak
Media sosial seperti Twitter menjadi yang banyak digunakan orang untuk mengungkapkan perasaan dan pendapat mereka dengan bebas. Komunikasi memainkan peran penting dalam interaksi sosial. Pengumpulan data opini-opini pengguna tentang suatu masalah dapat dilakukan untuk proses analisis sentimen dengan memasukan dalam kategori positif, negatif, atau netral. Penelitian ini bertujuan untuk mencari performa dari masing-masing model yang diujicoba dalam mencapai tujuan mencari accuracy untuk teks klasifikasi. Pendekatan linguistik diuji menggunakan berbagai jenis fitur dan model untuk analisis sentimen yang akurat, pengujian model LSTM, BiLSTM, dan CNN+MHSA dengan word embedding GloVe untuk mengetahui analisis sentimen ujaran kebencian. Penelitian dilakukan dengan melakukan pengumpulan dataset dari Twitter, labelling data, balance data, text processing, word embedding, modelling dan hasil pengujian. Pengujian model menggunakan model LSTM, BiLSTM dan CNN dengan Multi-Head Self Attention serta word embedding GloVe dengan jumlah dataset sebanyak 6923 data yang terdiri dari 6465 data sentimen bukan ujaran kebencian dan 467 data sentimen ujaran kebencian. Hasil pengujian menunjukkan bahwa ketiga metode yang dilakukan sama baiknya dalam analisis sentimen ujaran kebencian menggunakan dataset yang dikumpulkan sendiri, dengan hasil akurasi yang cukup tinggi yaitu 93.32%.
Abstract
Social media, such as Twitter, is widely used by people to express their feelings and opinions freely. Communication plays an important role in social interactions. Data collection on user opinions about an issue can be carried out for the sentiment analysis process by entering it into positive, negative, or neutral categories. This research aims to find out the performance of each model tested in achieving the goal of finding accuracy for text classification. The linguistic approach was tested using various types of features and models for accurate sentiment analysis, testing the LSTM, BiLSTM, and CNN+MHSA models with GloVe word embedding to determine the sentiment analysis of hate speech. The research was carried out by collecting datasets from Twitter, labelling data, balancing data, text processing, word embedding, modelling, and testing results. Model testing uses LSTM, BiLSTM, and CNN models with multi-head self-attention and GloVe word embedding, with a total dataset of 6923 data points consisting of 6465 non-hate speech sentiment data and 467 hate speech sentiment data. The test results show that the three methods used are equally good at analysing the sentiment of hate speech using a dataset collected by ourselves, with quite high accuracy results, namely 93.32%.