Automatic term extraction based on feature combination

Authors

  • N.V. Lukashevich
  • Yu.M. Logachev

Keywords:

knowledge acquisition
term extraction
thesaurus
machine learning
search engine
Internet

Abstract

The paper describes the method of extraction of two-word domain terms combining their features. The features are computed from three sources: the word usage statistics in a domain-specific text collection, the statistics of global search engines, and a domain-specific thesaurus. The evaluation of the approach is based on the terminology from Ontology on natural sciences and technology. We show that the use of multiple features considerably improves the automatic extraction of domain-specific terms.


Published

2010-10-26

Issue

Section

Section 2. Programming

Author Biographies

N.V. Lukashevich

Yu.M. Logachev


References

  1. Агеев М.С., Кураленок И.Е. Официальные метрики РОМИП’2004 // Российский семинар по оценке методов информационного поиска. Пущино, 2004. 142-150.
  2. Большакова Е.И., Васильева Н.Э. Терминологическая вариантность и ее учет при автоматической обработке текстов // Одиннадцатая национальная конференция по искусственному интеллекту с международным участием. 2. М.: ЛЕНАНД, 2008. 174-182.
  3. Браславский П.И., Соколов Е.А. Сравнение четырех методов автоматического извлечения двухсловных терминов из текста // Компьютерная лингвистика и интеллектуальные технологии. Тр. Международной конференции «Диалог 2006». М.: Изд-во РГГУ, 2006. 88-94.
  4. Браславский П.И., Соколов Е.А. Автоматическое извлечение терминологии с использованием поисковых машин Интернета // Компьютерная лингвистика и интеллектуальные технологии. Тр. Международной конференции «Диалог 2007». М.: Изд-во РГГУ, 2007. 89-94.
  5. Воронцов К.В. Лекции по логическим алгоритмам классификации. 2007 // (http://www.ccas.ru/voron/download/LogicAlgs.pdf).
  6. ГОСТ 7.25.-2001 Тезаурус информационно-поисковый одноязычный: Правила разработки: структура, состав и форма представления: Межгосударственный стандарт. Минск: Межгосударственный совет по стандартизации, метрологии и сертификации, 2001.
  7. Добров Б.В., Лукашевич Н.В., Сыромятников С.В. Формирование базы терминологических словосочетаний по текстам предметной области // Тр. 5-й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» (RCDL-2003). СПб, 2003. 201-210.
  8. Добров Б.В., Лукашевич Н.В., Синицын М.Н., Шапкин В.Н. Разработка лингвистической онтологии по естественным наукам для решения задач информационного поиска // Тр. 7-й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» (RCDL-2005). Ярославль, 2005. 70-79.
  9. Лингвистический энциклопедический словарь / Под ред. В. Н. Ярцевой. М.: Советская энциклопедия, 1990.
  10. Лукашевич Н.В. Автоматизированное формирование информационно-поискового тезауруса по общественно-политической жизни России // НТИ. Сер. 2. 1995. № 3. 21-24.
  11. Лукашевич Н.В., Добров Б.В. Отношения в онтологиях для решения задач информационного поиска в больших разнородных текстовых коллекциях // Девятая национальная конференция по искусственному интеллекту с международным участием (КИИ 2004). Т 2. М.: Физматлит, 2004. 544-551.
  12. Лукашевич Н.В., Добров Б.В., Чуйко Д.С. Отбор словосочетаний для словаря системы автоматической обработки текстов // Компьютерная лингвистика и интеллектуальные технологии. Тр. Международной конференции «Диалог 2008». М.: Изд-во РГГУ, 2007. 339-344.
  13. Никитина С.Е. Семантический анализ языка науки. М.: Наука, 1987.
  14. Ahmad K., Gillam L., Tostevin L. University of Surrey participation in Trec8: Weirdness indexing for logical documents extrapolation and retrieval // Proc. of Eighth Text Retrieval Conference (Trec-8). Gaithersburg, 1999. 717-724.
  15. Daille B., Gaussier E., Lang J.M. An evaluation of statistics scores for word association // Proc. of the Tbilisi Symposium on Logic, Language and Computation. Chicago: CSLI Publications. 1998. 177-188.
  16. Pecina P., Schlesinger P. Combining association measures for collocation extraction // Annual Meeting of the Association for Computational Linguistics (ACL 2006). Sydney: ACM, 2006. 651-658.
  17. Pearce D. Synonymy in collocation extraction // Proc. of the NAACL’01 Workshop on WordNet and Other Lexical Resources: Applications, Extensions and Customizations. Pittsburgh, 2001. 41-46.
  18. RapidMiner (www.rapidminer.com).
  19. Zhang Z., Iria J., Brewster Ch., Ciravegna F. A Comparative Evaluation of Term Recognition Algorithms // Proc. of the Sixth International Language Resources and Evaluation (LREC’08). Marrakech, 2008.