A detection method for mass-generated unnatural texts based on the topical structure analysis
Keywords:
web spam
topical structure
modeling
Abstract
Web spam is considered to be one of the greatest threats to modern search engines. Spammers use a wide range of algorithms to generate multiple unnatural texts. A new general model for texts generated from samples of natural texts is proposed. A new algorithm for detecting unnatural texts based on the topical structure analysis is also proposed. The proposed algorithm is evaluated on synthetic and real-world data.
Section
Section 2. Programming
References
- Gyongyi Z., Garcia-Molina H. Web spam taxonomy // Proc. of the 1st Int. Workshop on Adversarial Information Retrieval on the Web. Chiba: ACM, 2005. 39-47.
- Henzinger M., Motwani R., Silverstein C. Challenges in web search engines // SIGIR Forum. 2002. 36, N 2. 11-22.
- Castillo C., Donato D., Becchetti L., Boldi P., Leonardi S., Santini M., Vigna S. A reference collection for web spam // SIGIR Forum. 2006. 40, N 2. 11-24.
- Ашманов И.С. Анализатор спама в поисковой выдаче. 2011 // (http://analyzethis.ru/?analyzer=spam&;location=ru&;lang=ru).
- Page L., Brin S., Motwani R., Winograd T. The Pagerank citation ranking: bringing order to the web // World Wide Web Internet And Web Information Systems. Stanford InfoLab. Stanford, 1998. 1-17.
- Зеленков Ю.Г., Сегалович И.В. Сравнительный анализ методов определения нечетких дубликатов для Web-документов // Тр. IX Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» RCDL’2007. 1. Переславль, 2007. 166-174.
- Abernethy J., Chapelle O., Castillo C. WITCH: A new approach to Web spam detection // Proc. of the 4th Int. Workshop on Adversarial Information Retrieval on the Web. Beijing: ACM, 2008. 61-62.
- Ntoulas A., Najork M., Manasse M., Fetterly D. Detecting spam Web pages through content analysis // Proc. of the 15th Int. Conference on World Wide Web. Edinburgh: ACM, 2006. 83-92.
- Biro I., Siklosi D., Szabo J., Benczur A.A. Linked latent Dirichlet allocation in Web spam filtering // Proc. of the 5th Int. Workshop on Adversarial Information Retrieval on the Web. Madrid: ACM, 2009. 37-40.
- Гречников Е.А., Гусев Г.Г., Кустарев А.А., Райгородский А.М. Поиск неестественных текстов // Тр. XI Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции». Петрозаводск, 2009. 306-308.
- Павлов А.С., Добров Б.В. Методы обнаружения поискового спама, порожденного с помощью цепей Маркова // Тр. XI Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции». Петрозаводск, 2009. 311-317.
- Dang H. Overview of DUC 2006 // Proc. of the Document Understanding. New York: ACM, 2006. 1-10.
- ван Дейк Т.А., Кинч В. Стратегии понимания связного текста // Новое в зарубежной лингвистике. Вып. 23. М.: Прогресс, 1988. 153-211.
- Blei D., Ng A., Jordan M. Latent Dirichlet allocation // J. of Machine Learning Research. 2003. 3, N 5. 993-1022.
- Gelbukh A., Sidorov G. Zipf and Heaps laws» coefficients depend on language // Proc. of the Second Int. Conference on Computational Linguistics and Intelligent Text Processing. London: Springer, 2001. 332-335.
- Yahoo! Research: «Web Spam Collections». Milan, 2007 (http://barcelona.research.yahoo.net/webspam/datasets/uk2007/).
- Geng G., Jin X., Wang C.-H. CASIA at Web spam challenge 2008 Track III // Proc. of the 4th Int. Workshop on Adversarial Information Retrieval on the Web. Beijing: ACM, 2008. 32-33.