Entity Recognition for Quran English Version with Supervised Learning Approach

  • Muhammad Aris Maulana Telkom University
  • Moch. Arif Bijaksana Telkom University
  • Arief Fatchul Huda State Islamic University (UIN)
Abstract views: 273 , PDF downloads: 316
Dataset Quran downloads: 0
Entity Recognition in the Quran English Translation with Supervised Learning Approach downloads: 0

Abstract

The Quran is a Muslim holy book that consists of 6236 ayat or verses which divides into 144 surahs or chapters. In each chapter, there are many entities scattered in each verse. For a person, finding a particular entity will be difficult without a classification process, Resulting in difficulties in understanding the Quran. A system can be modeled to extract the information on entities in the Quran to solve this problem. Therefore, we want to offer a method to identify and classify entities using Entity recognition. The system will use the SVM techniques where the system will be given various entities from the Quran as an input to be able to identify correct entities. We are using the dataset obtained from website tanzil.net consists of 19.473 tokens and 720 entities. The classification scenario using a linear kernel with unigram produces the highest f-measure value of 0.75.

Al-Quran merupakan kitab suci Muslim yang terdiri dari 6236 ayat atau bait yang dibagi menjadi 144 surah atau bab. Di setiap bab, ada banyak entitas yang tersebar di setiap ayat. Bagi seorang individu, menemukan entitas tertentu akan sulit tanpa proses klasifikasi yang membuat kesulitan dalam memahami Quran. Sebuah sistem dapat dimodelkan untuk mengekstrak informasi tentang entitas dalam Al-Quran untuk menyelesaikan masalah ini. Oleh karena itu, kami menawarkan sistem untuk mengidentifikasi dan mengklasifikasikan entitas menggunakan Entity Recognition. Sistem akan menggunakan teknik SVM di mana sistem akan diberikan berbagai entitas dari Quran sebagai input untuk dapat mengidentifikasi entitas yang benar. Kami menggunakan dataset yang diperoleh dari situs web tanzil.net terdiri dari 19.473 tokens dan 720 entitas. Skenario klasifikasi yang menggunakan linear kernel dengan unigram memperoleh nilai f-measure tertinggi sebesar 0,75.

Downloads

Download data is not yet available.

Author Biographies

Muhammad Aris Maulana, Telkom University
School of Computing
Moch. Arif Bijaksana, Telkom University
School of Computing
Arief Fatchul Huda, State Islamic University (UIN)
Faculty of Science and Technology
Published
2020-01-07
How to Cite
Maulana, M. A., Bijaksana, M. A., & Huda, A. F. (2020). Entity Recognition for Quran English Version with Supervised Learning Approach. Indonesia Journal on Computing (Indo-JC), 4(3), 77-86. https://doi.org/10.34818/INDOJC.2019.4.3.362
Section
Computer Science