Classification of News Texts with GloVe Word Embeddings and Neural Networks


Creative Commons License

hark h., Karakurt M., hark c., KARCI A.

International Journal of Pure and Applied Sciences, vol.9, no.1, pp.175-187, 2023 (Peer-Reviewed Journal) identifier

Abstract

Dijital haberlerin artan miktarları, istenilen türdeki haberlere doğru ve hızlı bir şekilde erişim için haber metinlerinin kategorilere ayrılmasını gerektirmektedir. Bu çalışmada, ön-eğitimli kelime gömülmelerinin, Uzun Ömürlü Kısa Dönem Bellek Ağı (Long-Short Term Memory, LSTM) ve Evrişimsel Sinir Ağları (Convolutional Neural Network, CNN) gibi derin öğrenme modelleri üzerindeki etkisi araştırılmaktadır. Global Vektör (GloVe) kelime gömülmelerinden alınan bağlamsal temsilleri girdi olarak alan LSTM ve CNN ağları kullanılarak haber metinleri sınıflandırılmıştır. Kapsamlı ve karşılaştırmalı araştırmaların eksikliği nedeniyle GloVe gömme katmanı tarafından sağlanan bağlamsal temsiller farklı sınıflandırıcılar ve veri setleri üzerinde test edilmektedir. Deneysel süreçler boyunca Türkçe Haber başlıklarından oluşan Turkish Headlines veri seti ve BBC News Classification veri setleri kullanılmıştır. Kelime gömülmelerinin ağlar üzerindeki etkisini ortaya koymak için deneysel süreçler aynı parametreler ile tekrarlanmıştır. LSTM modelinde Glove kelime gömülme yöntemi kullanıldığında modelin başarısının %81’den %91’e çıktığı gözlemlenmektedir. CNN modelinde ise Glove kelime gömülmelerinin modelin başarısının olumlu yansımadığı görülmektedir.