SOC Press, Indonesia Symposium on Computing (IndoSC) 2016

Font Size: 
Identifikasi Parafrasa pada Dokumen Teks Bahasa Indonesia Menggunakan Bayesian Networks
Ario Harry Prayogo


Full Text: PDF

Abstract


Identifikasi parafrasa merupakan proses yang penting dalam Natural Language Processing. Tujuannya adalah untuk dapat secara otomatis mengenali pasangan frasa yang memiliki perbedaan bentuk namun arti yang sama. Contohnya kalimat “menyebabkan kebakaran hutan”, maka komputer harus dapat mengenali bahwa kalimat tersebut memiliki arti sepadan dengan “penyebab kebakaran hutan”. Jadi, parafrasa adalah mengungkapkan kembali sebuah tuturan menggunakan kata atau bentuk yang berbeda namun artinya sama. Pada penelitian ini kita akan berfokus pada pada klasifikasi pasangan kalimat Bahasa Indonesia apakah keduanya merupakan parafrasa atau bukan. Terdapat tiga tahap yang dilakukan yaitu: preprocessing, melatih classifier dan evaluasi
performansi. Preprocessing terdiri dari tokenization, non-alphanumerical removal dan stemming. Setelah dilakukan preprocess kita lakukan ekstraksi fitur untuk membangun fitur baru dari dataset yang ada. Fitur pertama adalah sintaktik yang merupakan hasil dari perhitungan jarak antara dua kalimat
menggunakan metode Normalized Levensthein Distance. Fitur kedua adalah semantik yang didapat dari menghitung kemiripan pasangan kalimat berdasarkan pohon semantik menggunakan metode Wu and Palmer. Setelah ekstraksi fitur kemudian dilakukan pembagian data kedalam training set dan test set. Kemudian kita diskritisasi fitur tersebut menggunakan algoritma K-means dan Bayesian Networks sebagai classifier. Rata-rata nilai F1-Score dari klasifikasi menggunakan Bayesian Networks adalah 71.5%.

Reference


[1] Reshamwala, A., Mishra, D., & Pawar, P. (2013). Review on natural language processing. IRACST Engineering Science and Technology: An International Journal (ESTIJ), 3, 113-116.

[2] KBBI, "KBBI - Parafrasa," [Online]. Available: kbbi.web.id/parafrasa.

[3] Asian, J., Williams, H. E., & Tahaghoghi, S. M. (2005, January). Stemming Indonesian. In Proceedings of the Twenty-eighth Australasian conference on Computer Science-Volume 38 (pp. 307-314). Australian Computer Society, Inc.

[4] U. B. Kjaerulff and A. L. Madsen, Bayesian Networks and Influence Diagrams: A Guide to Construction and Analysis, New York: Springer, 2012.

[5] Koller, D., & Friedman, N. (2009). Probabilistic graphical models: principles and techniques. MIT press.

[6] Heckerman, D. (1998). A tutorial on learning with Bayesian networks. In Learning in graphical models (pp. 301-354). Springer Netherlands. Crossref

[7] Abdi, A., Idris, N., Alguliyev, R. M., & Aliguliyev, R. M. (2015). PDLK: Plagiarism detection using linguistic knowledge. Expert Systems with Applications, 42(22), 8936-8946. Crossref

[8] Barzilay, R., & McKeown, K. R. (2001, July). Extracting paraphrases from a parallel corpus. In Proceedings of the 39th annual meeting on Association for Computational Linguistics (pp. 50-57). Association for Computational Linguistics.

[9] Shinyama, Y., Sekine, S., & Sudo, K. (2002, March). Automatic paraphrase acquisition from news articles. In Proceedings of the second international conference on Human Language Technology Research (pp. 313-318). Morgan Kaufmann Publishers Inc. Crossref

[10] Barzilay, R., & Lee, L. (2003, May). Learning to paraphrase: an unsupervised approach using multiple-sequence alignment. In Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology-Volume 1 (pp. 16-23). Association for Computational Linguistics.

[11] Vo, N. P. A., Magnolini, S., & Popescu, O. (2015, June). Paraphrase identification and semantic similarity in twitter with simple features. In The 3rd International Workshop on Natural Language Processing for Social Media (p. 10). Crossref

[12] Shet, K. C., & Acharya, U. D. (2012). A new similarity measure for taxonomy based on edge counting. arXiv preprint arXiv:1211.4709.

[13] K. Murphy, "Bayes Net Toolbox for Matlab," 2007. [Online]. Available: https://github.com/bayesnet/bnt/blob/master/docs/usage.html#structure_learning. [Accessed 20 06 2016].

[14] Dolan, B., Brockett, C., & Quirk, C. (2005). Microsoft research paraphrase corpus. Retrieved March, 29, 2008.

Last modified: 2016-11-02