Penerapan Simhash dan Hamming distance dalam Deteksi kemiripan Teks Berita

Authors

  • Mayesti Anggelina,  Informatika, Universitas Kristen Duta Wacana
  • Lucia Dwi Krisnawati Dwi Krisnawati,  Informatika, Universitas Kristen Duta Wacana
  • (*) Danny Sebastian,  Informatika, Universitas Kristen Duta Wacana

(*) Corresponding Author

DOI:

https://doi.org/10.21460/jutei.2022.62.216

Keywords:

daur ulang teks, deteksi kemiripan teks, hamming distance, simhash

Abstract

Daur Ulang Text didefinisikan sebagai pemanfaatan sumber tulisan yang ada untuk penulisan sebuah teks baru. Persentase penggunaan ulang teks dari sumber sebelumnya sangatlah bervariasi.  Jika prosentase penggunaan tersebut tinggi dan berasal dari sebuah sumber, maka teks yang baru menjadi teks duplikat atau hampir duplikat dengan teks sumbernya. Meskipun beberapa genre teks bisa diterima, keberadaan teks duplikat dan hampir dupilkat ini menyebabkan ketidak-efisienan penyimpanan dan pencarian. Untuk itu diperlukan sebuah system deteksi kemiripan teks yang akan mengidentifikasi teks mana saja yang dupilkat dan hampir duplikat. Untuk itu, penelitian ini berfokus pada deteksi kemiripan teks dengan mengaplikasikan algoritma Simhash. Algoritma ini digunakan untuk menghasilkan fingerprint dokumen yang berfungsi sebagai fitur dokumen yang digunakan sebagai dasar pembanding tingkat kemiripan teks. Kemiripan sebuah teks terhadap teks lainnya diukur dengan menggunakan jarak Hamming. Dalam ekperimen yang difokuskan pada dokumen duplikat dan hampir duplikat, tingkat Recall dokumen cukup tinggi yakni 80%. Ini berarti bahwa sistem yang dikembangkan mampu menemenukan pasangan dokumen duplikat dengan baik.

 

References

L. D. Krisnawati and K. U. Schulz, "Significant Word-based Text Alignment for Text Reuse Detection," in Conference: Int. Conference on Research and Innovation in Computer, Electronic, and Manufacturing Enginerring (RICEME-17), Denpasar, Bali, 2017.

L. Krisnawati, "The use of phraseword and local-weighted terms as features for text reuse and plagiarism detection," in Seminar Hasil Penelitian Bagi Civitas Akademika UKDW, Yogyakarta, Indonesia, 2017.

L. D. Krisnawati, "Plagiarism Detection for Indonesian Texts," Muenchen, 2016.

M. Coe, "Website Indexing," Indexer, vol. 34, no. 1, pp. 20-25, 2016.

L. Pamulaparty, C. Rao and M. Rao, "A Near-Duplicate Detection Algorithm to Facilitate Document Clustering," Intl. Journal of Data Mining and Knowledge Management Process, vol. 4, no. 5, pp. 39-49, 2014.

K. Williams and C. L. Giles, "Near Duplicate Detection in an Academic Digital Library," in Proceedings of the 2013 ACM symposium on Document engineering, 2013.

M. Burgess, E. Giraudy, J. Katz-Samule and J. Walsh, "The Legislative Influence Detector: Finding Text Reuse in State Legislation," in Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data, California, 2016.

R. Yandrapally, A. Stocco and A. Mesbah, "Inference, Near-Duplicate Detection in Web App Model," in Proceedings of the ACM/IEEE 42nd International Conference on Software Engineering, Seol, Korea, 2020.

M. Moritz, W. A. B. Pavlek, Y. Bizzoni and M. Buchler, "Non-Literal Text Reuse in Historical Texts: An Approach to Identify Reuse Transformations and its Application to Bible Reuse," in Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, Austin, Texas, 2016.

T. Hoad and J. Zobel, "Methods for Identifying Versioned and Plagiarized Documents," Journal of the American Society for Informtion Science and Technology, vol. 54, no. 3, pp. 203-215, 2003.

M. S. Charikar, "Similarity Estimation Techniques from Rounding Algorithms," in Proceedings of the 34th Annual ACM Symposium on Theory of Computing,, 2002.

F. Naumann and M. Herschel, "An Introduction to Duplicate Detection," in Synthesis Lectures on Data MAnagement, Postdam, Morgan & Claypool Publisher, 2010, pp. 1-87.

T. Kopelowitz and E. Porat, "A Simple Algorithm for Approximating the Text-To-Pattern Hamming Distance," in 1st Symposium on Simplicity in Algorithms, Dagstuhl, 2018.

N. C. Haryanto, L. D. Krisnawati and . A. R. Chrismanto, "Retrieval of source documents in a text reuse system," 2020.

Published

2022-10-31

How to Cite

[1]
M. Anggelina, L. D. K. Dwi Krisnawati, and D. Sebastian, “Penerapan Simhash dan Hamming distance dalam Deteksi kemiripan Teks Berita”, JUTEI, vol. 6, no. 2, pp. 131–141, Oct. 2022.