Метод обнаружения массово порожденных неестественных текстов на основе анализа тематической структуры

A.S. Pavlov; B.V. Dobrov

A detection method for mass-generated unnatural texts based on the topical structure analysis

Authors

A.S. Pavlov
B.V. Dobrov

Keywords:

web spam

topical structure

modeling

Abstract

Web spam is considered to be one of the greatest threats to modern search engines. Spammers use a wide range of algorithms to generate multiple unnatural texts. A new general model for texts generated from samples of natural texts is proposed. A new algorithm for detecting unnatural texts based on the topical structure analysis is also proposed. The proposed algorithm is evaluated on synthetic and real-world data.

Downloads

PDF (Русский)

Published

2011-09-05

Issue

Vol. 12 (2011): Issue 3.

Section

Section 2. Programming

Author Biographies

A.S. Pavlov

Lomonosov Moscow State University,
Faculty of Computational Mathematics and Cybernetics
• PhD Student

B.V. Dobrov

Lomonosov Moscow State University,
Research Computing Center
• Head of Laboratory

References

Gyongyi Z., Garcia-Molina H. Web spam taxonomy // Proc. of the 1st Int. Workshop on Adversarial Information Retrieval on the Web. Chiba: ACM, 2005. 39-47.
Henzinger M., Motwani R., Silverstein C. Challenges in web search engines // SIGIR Forum. 2002. 36, N 2. 11-22.
Castillo C., Donato D., Becchetti L., Boldi P., Leonardi S., Santini M., Vigna S. A reference collection for web spam // SIGIR Forum. 2006. 40, N 2. 11-24.
Ашманов И.С. Анализатор спама в поисковой выдаче. 2011 // (http://analyzethis.ru/?analyzer=spam&;location=ru&;lang=ru).
Page L., Brin S., Motwani R., Winograd T. The Pagerank citation ranking: bringing order to the web // World Wide Web Internet And Web Information Systems. Stanford InfoLab. Stanford, 1998. 1-17.
Зеленков Ю.Г., Сегалович И.В. Сравнительный анализ методов определения нечетких дубликатов для Web-документов // Тр. IX Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» RCDL’2007. 1. Переславль, 2007. 166-174.
Abernethy J., Chapelle O., Castillo C. WITCH: A new approach to Web spam detection // Proc. of the 4th Int. Workshop on Adversarial Information Retrieval on the Web. Beijing: ACM, 2008. 61-62.
Ntoulas A., Najork M., Manasse M., Fetterly D. Detecting spam Web pages through content analysis // Proc. of the 15th Int. Conference on World Wide Web. Edinburgh: ACM, 2006. 83-92.
Biro I., Siklosi D., Szabo J., Benczur A.A. Linked latent Dirichlet allocation in Web spam filtering // Proc. of the 5th Int. Workshop on Adversarial Information Retrieval on the Web. Madrid: ACM, 2009. 37-40.
Гречников Е.А., Гусев Г.Г., Кустарев А.А., Райгородский А.М. Поиск неестественных текстов // Тр. XI Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции». Петрозаводск, 2009. 306-308.
Павлов А.С., Добров Б.В. Методы обнаружения поискового спама, порожденного с помощью цепей Маркова // Тр. XI Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции». Петрозаводск, 2009. 311-317.
Dang H. Overview of DUC 2006 // Proc. of the Document Understanding. New York: ACM, 2006. 1-10.
ван Дейк Т.А., Кинч В. Стратегии понимания связного текста // Новое в зарубежной лингвистике. Вып. 23. М.: Прогресс, 1988. 153-211.
Blei D., Ng A., Jordan M. Latent Dirichlet allocation // J. of Machine Learning Research. 2003. 3, N 5. 993-1022.
Gelbukh A., Sidorov G. Zipf and Heaps laws» coefficients depend on language // Proc. of the Second Int. Conference on Computational Linguistics and Intelligent Text Processing. London: Springer, 2001. 332-335.
Yahoo! Research: «Web Spam Collections». Milan, 2007 (http://barcelona.research.yahoo.net/webspam/datasets/uk2007/).
Geng G., Jin X., Wang C.-H. CASIA at Web spam challenge 2008 Track III // Proc. of the 4th Int. Workshop on Adversarial Information Retrieval on the Web. Beijing: ACM, 2008. 32-33.