Ekstraksi Informasi Beasiswa dari Media Sosial menggunakan BiLSTM-CRF
Abstract
Abstrak-Sosial media merupakan tempat dimana orang-orang berkumpul dan saling bertukar informasi. Dari informasi tersebut dapat muncul berbagai macam peluang seperti beasiswa yang dikeluarkan oleh lembaga pendidikan. Peluang ini dapat banyak ditemukan pada sosial media seperti Twitter. Namun kebanyakan informasi yang dikeluarkan menggunakan format tersendiri sehingga menjadi tidak terstruktur dan menghambat upaya pengolahan informasi yang terkait. Melihat cepatnya informasi berlalu dan banyaknya kompetisi dalam meraih peluang tersebut, efisiensi menjadi faktor penting dalam mengumpulkan dan memproses informasi. Untuk mengatasi permasalahan tersebut, maka dilakukan ekstraksi informasi untuk mengubah informasi tidak terstruktur menjadi terstruktur menggunakan metode Bidirectional Long-Short Term Memory dengan Conditional Random Fields (BiLSTM-CRF). Metode ini digunakan karena dapat memberikan konteks informasi dari masa lalu dan masa depan pada teks sehingga sesuai untuk mengatasi tugas ekstraksi informasi. Tujuan penelitian ini adalah melakukan ekstraksi informasi dengan mengimplementasikan model BiLSTM-CRF untuk melakukan proses klasifikasi informasi yang diekstraksi sesuai dengan kategori pengelompokkan yang ditetapkan sehingga data yang terkumpul menjadi terstruktur dan mudah untuk dibaca. Hasil yang didapatkan dari implementasi model tersebut adalah nilai performansi dengan Precision 90%, Recall 51%, dan F1-Score sebesar 54%.
Kata kunci - beasiswa, twitter, sequence labelling, BiLSTM-CRF, ekstraksi informasi
References
Adnan, K., & Akbar, R. (2019). An analytical study of information extraction from unstructured and multidimensional big data. Journal of Big Data, 6(1), 1-38.
Marrero, M., Urbano, J., Sánchez-Cuadrado, S., Morato, J., & Gómez-Berbís, J. M. Named Entity Recognition: Fallacies, Challenges and Opportunities.
Mansouri, A., Affendey, L. S., & Mamat, A. (2008). Named entity recognition approaches. International Journal of Computer Science and Network Security, 8(2), 339-344.
He, Z., Wang, Z., Wei, W., Feng, S., Mao, X., & Jiang, S. (2020). A Survey on Recent Advances in Sequence Labeling from Deep Learning Models. arXiv preprint arXiv:2011.06727.
Chopra, A., Prashar, A., & Sain, C. (2013). Natural language processing. International journal of technology enhancements and emerging engineering research, 1(4), 131-134.
Gooding, S., & Kochmar, E. (2019, July). Complex word identification as a sequence labelling task. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics (pp. 1148-1153).
Al-Zaidy, R. A., Caragea, C., & Giles, C. L. (2019). Bi-LSTM-CRF Sequence Labeling for Keyphrase Extraction from Scholarly Documents.
Kawakami, K. (2008). Supervised sequence labelling with recurrent neural networks. Ph. D. thesis.
Sangal, R., Bendre, S., Sharma, D. M., & Mannem, P. R. (2007). Shallow Parsing for South Asian Languages.
Liu, K., & El-Gohary, N. (2016). Ontology-based sequence labelling for automated information extraction for supporting bridge data analytics. Procedia Engineering, 145, 504-510.
Derczynski, L. (2016, May). Complementarity, F-score, and NLP Evaluation. In Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16) (pp. 261-266).
D. Sahrawat et al., ‘Keyphrase Extraction from Scholarly Articles as Sequence Labeling using Contextualized Embeddings’, 2019
K. Nebhi, ‘Ontology-based information extraction from twitter’, oto Proceedings of the Workshop on Information Extraction and Entity Analytics on Social Media Data, 2012, oo. 17–22.
A. Katsuta et al., ‘Infomation extraction from english & japanese resume with neural sequence labelling methods’, 2018.
Z. Huang, W. Xu. kal K. Yu, ‘Bidirectional LSTM-CRF models for sequence tagging’.