SOC Press, Indonesia Symposium on Computing (IndoSC) 2016

Font Size: 
Kesamaan Semantik Antar Kata menggunakan Pengukuran Berbasis Path
paskalis dias adhyaksa


Full Text: PDF

Abstract


Pengukuran semantic similarity memiliki peran penting dalam beberapa task natural language processing. Pengukuran ini dilatarbelakangi oleh suatu masalah di mana saat ini komputer belum dapat menyamakan persepsi manusia terkait penilaian kesamaan antar kata. Penggunaan knowledge bases sebagai sumber informasi telah banyak diimplementasikan menggunakan metode tertentu untuk melakukan perhitungan kesamaan semantik antar kata. Salah satu diantaranya adalah pengukuran berbasis path yang cukup populer digunakan dengan memanfaatkan bentuk struktur taksonomi secara utuh. Penelitian ini mengimplementasikan pengukuran berbasis path dengan pendekatan Wang & Hirst measure untuk melakukan perhitungan kesamaan semantik antar kata menggunakan WordNet sebagai knowledge base. Sistem melakukan perhitungan skor terhadap semua kombinasi sense kata dengan bobot parameter alpha yang diatur pada skala 0 - 5. Hasil pengujian menunjukkan pengukuran Wang & Hirst mampu menghasilkan nilai korelasi cukup tinggi pada kedua dataset uji, yaitu sebesar 0,59 untuk dataset SimLex999 dan 0,65 untuk dataset WordSim353 dengan bobot parameter alph 0. Hasil korelasi tersebut termasuk ke dalam kategori korelasi positif sedang untuk dataset SimLex999 dan korelasi positif kuat untuk dataset WordSim353.

Reference


[1] Mihalcea, R., Corley, C., & Strapparava, C. (2006, July). Corpus-based and knowledge-based measures of text semantic similarity. In AAAI (Vol. 6, pp. 775-780).

[2] M. F. Razandi, Implementasi dan Analisis Semantic Relatedness Dengan Menggunakan Hybrid Method (Path -based Method dan Glossbased Method), Bandung: S1 Teknik Informatika. Universitas Telkom, 2016.

[3] Zhang, Z., Gentile, A. L., & Ciravegna, F. (2013). Recent advances in methods of lexical semantic relatedness–a survey. Natural Language Engineering, 19(04), 411-479. Crossref

[4] Wang, T., & Hirst, G. (2011, July). Refining the notions of depth and density in wordnet-based semantic similarity measures. In Proceedings of the Conference on Empirical Methods in Natural Language Processing (pp. 1003-1011). Association for Computational Linguistics.

[5] P. University, "WordNet : A lexical database for English," Princeton University, 17 March 2015. [Online]. Available: https://wordnet.princeton.edu. [Accessed 5 November 2015].

[6] A. K. Durga and A. Govardhan, "Estimation of Word Net-Based Lexical Semantic Similarity Measure for Telugu Documents," IOSR Journal of Computer Engineering, vol. 1, no. 2, pp. 24- 30, 2012. Crossref

[7] S. "Pearson's correlation," Creative Commons Licence , [Online]. Available: http://www.statstutor.ac.uk/. [Accessed 2015 November 7].

[8] pbarrett.net, "Euclidean Distance raw, normalized, and doublescaled coefficients," September 2005. [Online]. Available: http://www.pbarrett.net/techpapers/euclid.pdf. [Accessed 15 July 2016].

Last modified: 2016-11-02