Kategorisasi Berita Menggunakan Metode Pembobotan TF.ABS dan TF.CHI

Muhammad Arif Kurniawan, Yuliant Sibaroni, Kemas L Muslim

Abstract


Dengan kemajuan teknologi saat ini, berita dapat ditemukan dengan mudah dan berjumlah sangat banyak dalam bentuk digital yang menyebabkan diperlukannya suatu teknik untuk mengkategorikan berita-berita tersebut ke dalam topik tertentu agar mempermudah pembaca menemukan berita sesuai dengan topik yang diinginkan. Kategorisasi teks merupakan suatu teknik yang dapat mengkategorikan berita ke dalam topik yang telah ditentukan secara otomatis. Salah satu proses yang penting dalam kategorisasi adalah ekstraksi fitur yang mana unigram binary merupakan salah satu ekstraksi fitur yang dasar dibandingkan dengan term weighting yang dalam penelitian ini akan menggunakan metode pembobotan TF.ABS dan TF.CHI untuk memperoleh hasil kategorisasi berita yang optimal. Berdasarkan hasil pengujian, rata-rata akurasi yang didapatkan dari tiga sumber data pada ekstraksi fitur unigram binary sebesar 90.44%. Sedangkan pada metode pembobotan TF.ABS sebesar 95.74% dan TF.CHI sebesar 95.87%. Berdasarkan hasil akurasi tersebut, dapat disimpulkan bahwa term weighting lebih baik dibandingkan dengan unigram binary. Metode pembobotan TF.ABS dan TF.CHI sama-sama baik dalam kategorisasi karena tidak berbeda secara signifikan dalam performansinya. Pada hasil pengujian lainnya menunjukkan bahwa proses stemming tidak memberikan banyak pengaruh terhadap akurasi kategorisasi berita, namun proses ini dapat mengefisiensikan waktu hingga 45%.

Full Text:

PDF

References


A. Basu, C. Watters, and M. Shepherd. Support Vector Machines for Text Categorization. IEEE, 2003.

F. Ismail. Examining Learning Algorithms for Text Classification in Digital Libraries. Department of Alfa-Informatica,

University of Groningen. Netherland, 2004.

T. Christoph and X. Fei. A phrase-based unigram model for statistical machine translation. Association for Computational

Linguistics Stroudsburg, PA, USA, 2003.

E. Putri N Kianiseta. Analisis Perbandingan Metode Pembobotan TF.CHI2 dan TF.RF Terhadap Kategorisasi Teks Berbahasa

Indonesia. Universitas Telkom, 2014.

M. Liliam Ayako and E. Nelson Francisco Favilla. Term Weighting Approaches for Text Categorization Improving. IEEE,

Y. Yiming and L. Xin. An Re-examination of Text Categorization. ACM New York, NY, USA, 1999.

W. Ziqiang, S. Xia, and Z. Dexian. An Optimal Text Categorization Algorithm Based on SVM. IEEE, 2007.

M. Liliam Ayako. An Automated Text Categorization Methodology to Distribute the Bills to the Commettees at the Federal

Distric Legislative Assembly. Dept of Civil Engineering, COPPE/Federal University of Rio de Janeiro, 2007.

A. Thopo Martha. Analisis Perbandingan Metode Pembobotan Kata TF.IDF dan TF.RF Terhadap Performansi Kategorisasi

Teks. Universitas Telkom, 2012.

G. Derek and C. Padraig. Practical Solutions to the Problem of Diagonal Dominance in Kernel Document Clustering. ICML,

Z. Xiang, Z. Junbo, and L. Yann. Character-level Convolutional Networks for Text Classification. NIPS, 2015.

M. Christopher D., R. Prabhakar, and S. Hinrich. Introduction to Information Retrieval. Cambridge University Press, 2008.

N. Nadia. Intelligent Text Categorization and Clustering. Berlin: Springer, 2009.

M. Liliam Ayako and E. Nelson Francisco Favilla. Two Novel Weighting for Text Categorization. WITPress, 2008.

T. Tokunaga and I. Makoto. Text Categorization Based On Weighted Inverse Document Frequency. Tokyo, Japan: Tokyo

Institute of Technology, 1994.

S. Catur and Affandy. Kombinasi Teknik Chi Square dan Singular Value Decomposition Untuk Reduksi Fitur Pada

Pengelompokan Dokumen. Melaka, Malaysia : Universitas Teknikal Malaysia, 2011.

Y. Sanjay and S. Sanyam. Analysis of k-Fold Cross-Validation over Hold-Out Validation on Colossal Datasets for Quality

Classification. IEEE, 2016.




DOI: http://dx.doi.org/10.21108/INDOJC.2018.3.2.236

Refbacks

  • There are currently no refbacks.


Copyright (c) 2018 Muhammad Arif Kurniawan

Creative Commons License
This work is licensed under a Creative Commons Attribution 4.0 International License.