การทดสอบมาตรวัดความคล้ายคลึงเชิงความหมาย สำหรับคำเหมือนและคำตรงข้ามภาษาไทย

พรฤดี เนติโสภากุล

Abstract


บทความนี้อธิบายมาตรวัดความคล้ายคลึงเชิงความหมายที่นิยมใช้ในการวัดความคล้ายคลึงระดับคำจำนวนหกมาตรวัด ได้แก่ Path Distance Similarity, Leacock Chodorow Similarity, Wu-Palmer Similarity, Resnik Similarity, Jiang-Conrath Similarity และ Lin Similarity จากนั้น ได้นำมาตรวัดดังกล่าว มาทดสอบการวัดความคล้ายคลึงในคำไทย โดยแบ่งชุดคำเป็นสองชุดคือ ชุดคำเหมือนและชุดคำตรงข้าม และหาค่าเฉลี่ยของมาตรวัดทั้งหก เพื่อทำการทดสอบทางสถิติแบบ pair-wised t-test สำหรับสมมุติฐานว่า ค่าความคล้ายคลึงในชุดคำเหมือนจะมากกว่าค่าความคล้ายคลึงในชุดคำตรงข้าม ผลการทดสอบ พบว่า สามารถยอมรับสมมุติฐานดังกล่าวได้ที่ระดับนัยสำคัญ 0.05 หรือที่ความเชื่อมั่น 95% ดังนั้น จึงสรุปได้ว่า มาตรวัดเชิงความหมายสามารถใช้วัดความคล้ายคลึงในคำภาษาไทยได้


Full Text:

PDF

References


Nitesh, P., Gyanchandani, M., & Wadhvani, R. (2015, June). A Review on Text Similarity Technique used in IR and its Application. International Journal of Computer Applications (0975 – 8887), 120(9).

Chainapaporn, P., & Netisopakul, P. (2013). Word similarity algorithm for merging Thai herb information from heterogeneous data sources. International Conference on Information Technology and Electrical Engineering (ICITEE) (pp. 159-163). York Jarkata, Indonesia: IEEE.

Miller, G. B. (1990). WordNet: An online lexical database. . Int. J. Lexicograph, 3(4), 235–244.

Miller, G. A. (1995). "WordNet: a lexical database for English.". Communications of the ACM , 38(11), 39-41.

Pedersen, T., Patwardhan, S., & Michelizzi, J. (2004, May). WordNet:: Similarity: measuring the relatedness of concepts. In Demonstration papers at HLT-NAACL 2004 (pp. 38-41). Association for Computational Linguistics.

Yang, D., & Powers, D. M. (2005, January). Measuring semantic similarity in the taxonomy of WordNet. In Proceedings of the Twenty-eighth Australasian conference on Computer Science-Volume 38 (pp. 315-322). Australian Computer Society, Inc..

Leacock, C., & Chodorow, M. (1998). Combining local context and WordNet similarity for word sense identification. WordNet: An electronic lexical database, 49(2), 265-283.

Wu, Z., & Palmer, M. (1994). Verb semantics and lexical selection. Proceedings of the 32nd Annual Meeting of the Association for Computational Linguistics. Las Cruces, New Mexico.

Pederson, T. (2010). Information Content Measures of Semantic Similarity. Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the ACL (pp. 329-332). Los Angeles, CA: Association for Computational Linguistics.

Resnik, P. (1995). Using information content to evaluate semantic similarity in a taxonomy. In C. S. Mellish (Ed.), Proceedings of the 14th international joint conference on Artificial intelligence (IJCAI'95). 1, pp. 448–453. San Francisco, CA, USA : Morgan Kaufmann Publishers Inc.

Lin, D. (1998, July). An information-theoretic definition of similarity. In Icml (Vol. 98, No. 1998, pp. 296-304).

Sornlertlamvanich, V., Potipiti, T., Wutiwiwatchai, C., & Mittrapiyanuruk, P. (July 31-August 04, 2000). The State of the Art in Thai Language Processing. Proceedings of the 38th Annual Meeting on Association for Computational Linguistics, (pp. 1-2). Saarbrücken, Germany. doi:10.3115/1075218.1075296

Thoongsup, S. R. (2009). Thai WordNet construction. Proceedings of the 7th workshop on Asian language resources (pp. 139-144). Association for computaional linguistics.


Refbacks

  • There are currently no refbacks.