A detection method for mass-generated unnatural texts based on the topical structure analysis

Authors

  • A.S. Pavlov
  • B.V. Dobrov

Keywords:

web spam
topical structure
modeling

Abstract

Web spam is considered to be one of the greatest threats to modern search engines. Spammers use a wide range of algorithms to generate multiple unnatural texts. A new general model for texts generated from samples of natural texts is proposed. A new algorithm for detecting unnatural texts based on the topical structure analysis is also proposed. The proposed algorithm is evaluated on synthetic and real-world data.


Published

2011-09-05

Issue

Section

Section 2. Programming

Author Biographies

A.S. Pavlov

B.V. Dobrov


References

  1. Gyongyi Z., Garcia-Molina H. Web spam taxonomy // Proc. of the 1st Int. Workshop on Adversarial Information Retrieval on the Web. Chiba: ACM, 2005. 39-47.
  2. Henzinger M., Motwani R., Silverstein C. Challenges in web search engines // SIGIR Forum. 2002. 36, N 2. 11-22.
  3. Castillo C., Donato D., Becchetti L., Boldi P., Leonardi S., Santini M., Vigna S. A reference collection for web spam // SIGIR Forum. 2006. 40, N 2. 11-24.
  4. Ашманов И.С. Анализатор спама в поисковой выдаче. 2011 // (http://analyzethis.ru/?analyzer=spam&;location=ru&;lang=ru).
  5. Page L., Brin S., Motwani R., Winograd T. The Pagerank citation ranking: bringing order to the web // World Wide Web Internet And Web Information Systems. Stanford InfoLab. Stanford, 1998. 1-17.
  6. Зеленков Ю.Г., Сегалович И.В. Сравнительный анализ методов определения нечетких дубликатов для Web-документов // Тр. IX Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» RCDL’2007. 1. Переславль, 2007. 166-174.
  7. Abernethy J., Chapelle O., Castillo C. WITCH: A new approach to Web spam detection // Proc. of the 4th Int. Workshop on Adversarial Information Retrieval on the Web. Beijing: ACM, 2008. 61-62.
  8. Ntoulas A., Najork M., Manasse M., Fetterly D. Detecting spam Web pages through content analysis // Proc. of the 15th Int. Conference on World Wide Web. Edinburgh: ACM, 2006. 83-92.
  9. Biro I., Siklosi D., Szabo J., Benczur A.A. Linked latent Dirichlet allocation in Web spam filtering // Proc. of the 5th Int. Workshop on Adversarial Information Retrieval on the Web. Madrid: ACM, 2009. 37-40.
  10. Гречников Е.А., Гусев Г.Г., Кустарев А.А., Райгородский А.М. Поиск неестественных текстов // Тр. XI Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции». Петрозаводск, 2009. 306-308.
  11. Павлов А.С., Добров Б.В. Методы обнаружения поискового спама, порожденного с помощью цепей Маркова // Тр. XI Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции». Петрозаводск, 2009. 311-317.
  12. Dang H. Overview of DUC 2006 // Proc. of the Document Understanding. New York: ACM, 2006. 1-10.
  13. ван Дейк Т.А., Кинч В. Стратегии понимания связного текста // Новое в зарубежной лингвистике. Вып. 23. М.: Прогресс, 1988. 153-211.
  14. Blei D., Ng A., Jordan M. Latent Dirichlet allocation // J. of Machine Learning Research. 2003. 3, N 5. 993-1022.
  15. Gelbukh A., Sidorov G. Zipf and Heaps laws» coefficients depend on language // Proc. of the Second Int. Conference on Computational Linguistics and Intelligent Text Processing. London: Springer, 2001. 332-335.
  16. Yahoo! Research: «Web Spam Collections». Milan, 2007 (http://barcelona.research.yahoo.net/webspam/datasets/uk2007/).
  17. Geng G., Jin X., Wang C.-H. CASIA at Web spam challenge 2008 Track III // Proc. of the 4th Int. Workshop on Adversarial Information Retrieval on the Web. Beijing: ACM, 2008. 32-33.