Вестник НГУ
Серия: Информационные технологии

Научный журнал, основан в 2003 году

ISSN 2410-0420 (Online), ISSN 1818-7900 (Print)

Switch to
English

Все выпуски >> Содержание журнала: Том 11, Выпуск № 4 (2013)

Подход к формированию тематических коллекций текстов на основе интернет-ресурсов
Ирина Равильевна Ахмадеева, Юрий Алексеевич Загорулько, Наталья Васильевна Саломатина, Алексей Сергеевич Серый, Елена Анатольевна Сидорова, Владимир Константинович Шестаков

Новосибирский государственный университет
Институт систем информатики им. А. П. Ершова СО РАН
Институт математики им. С. Л. Соболева СО РАН

УДК : 002.513.5:004.912

Аннотация
Рассматривается задача автоматического формирования коллекций текстов, соответствующих заданным тематикам. Для ее решения предложен подход и разработана система, использующая для сбора текстов механизмы метапоиска и специализированные средства для работы с вики-ресурсами. Проведенные эксперименты с системой показали продуктивность предложенного подхода.

Ключевые слова
текстовые коллекции, интернет-ресурсы, вики-ресурсы, поисковый запрос, метапоиск

Цитирование:
Ахмадеева И. Р., Загорулько Ю. А., Саломатина Н. В., Серый А. С., Сидорова Е. А., Шестаков В. К. Подход к формированию тематических коллекций текстов на основе интернет-ресурсов // Вестник НГУ Серия: Информационные технологии. - 2013. - Том 11, Выпуск № 4. - С. 5-15. - ISSN 1818-7900.

Полный текст публикации

Просмотр в формате PDF

Список цитируемой литературы
1. Степанов В. К. Применение Интернета в профессиональной информационной деятель ности. М.: ФАИР, 2009. 301 c.
2. Meng W., Yu C., Liu K. L. Building Efficient and Effective Metasearch Engines // ACM Computing Surveys (CSUR). 2002. Vol. 34. No. 1. P. 48–89.
3. Арбатская О. А. Интеллектуализация тематического поиска в поисковых системах Ин тернет // Лингвистическое обеспечение информационных ресурсов библиотек, музеев, архи вов и других учреждений культуры. СПб.: Сударыня, 2008. С. 173–190.
4. Voorhees E. M. Query Expansion Using Lexical-Semantic Relations // SIGIR'94. L.: Springer,
1994. P. 61–69.
5. Zhang J., Deng B., Li X. Concept Based Query Expansion Using WordNet // Proc. of the 2009 International e-Conference on Advanced Science and Technology / IEEE Computer Society. 2009. P. 52–55.
6. Nemrava J. Using WordNet Glosses to Refine Google Queries // Proc. of the Dateso 2006 Workshop. VSB – Technical University of Ostrava, Dept. of Computer Science, 2006. P. 85–94.
7. Berjon R., Faulkner S., Leithead T., Navara E. D., O'Connor E., Pfeiffer S., Hickson I. HTML5: A Vocabulary and Associated APIs for HTML and XHTML // W3C Candidate Recommendation.
2013.
8. Кузнецов Р. Ф. Извлечение значимой информации из web-страниц с использованием предложений // RCDL’2006: Сб. тез. постерных докл. VIII Всерос. конф. СПб.: НУ ЦСИ, 2006. 274 с.
9. Baumgartner R. Datalog-Related Aspects in Lixto Visual Developer // Datalog Reloaded. Lecture Notes in Computer Science. 2011. Vol. 6702. P. 145–160.
10. Агеев М. С., Вершинников И. В., Добров Б. В. Извлечение значимой информации из web-страниц для задач информационного поиска // Интернет-математика 2005. Автоматиче ская обработка веб-данных. М., 2005. С. 283–301.
11. Marathe M., Patil S. H., Garje G. V., Bewoor M. S. Extracting Content Blocks from Web Pages // International Journal of Recent Trends in Engineering, 2009. Vol. 2. No. 4. P. 62–64.
12. Stenback J., Le Hégaret P., Le Hors A. Document Object Model (DOM) Level 2 HTML Specification // W3C Recommendation. 2003.
13. Cui G. Y., Lu Q., Li W. J., Chen Y. R. Corpus Exploitation from Wikipedia for Ontology Construction // Proc. of the VI International Language Resources and Evaluation (LREC 2008). Marrakech, 2008. P. 2125–2132.
14. Leuf B., Cunningham W. The Wiki Way: Quick Collaboration on the Web. Addison-Wesley, 2001. 435 p.
15. Broder A., Glassman S., Manasse M., Zweig G. Syntactic Clustering of the Web // Computer Networks and ISDN Systems. 1997. Vol. 29. No. 8. P. 1157–1166.
16. Lindemann C., Littig L. Coarse-Grained Classification of Web Sites by Their Structural Properties // Proc. of the VIII Annual ACM International Workshop on Web Information and Data Management. 2006. P. 35–42.
17. Qi X., Davison B. D. Web Page Classification: Features and Algorithms // ACM Computing Surveys (CSUR). 2009. Vol. 41. No. 2. P. 1–31.

Информация о публикации
Вестник НГУ Серия: Информационные технологии, Том 11, Выпуск № 4 (2013).
Год издания: 2013
ISSN: 1818-7900 (Print), ISSN 2410-0420 (Online)
Издатель: Федеральное государственное автономное образовательное учреждение высшего образования "Новосибирский национальный исследовательский государственный университет"
Грантовая поддержка: Работа выполнена при поддержке Министерства образования и науки Российской Федерации (соглашение № 02.G25.31.0054).
Ссылка на репозиторий


|Головная| |Все выпуски| |Информация для авторов| |Редакционнный Совет| |Этические принципы| |Редакционная политика| |Контакты| |Оплата публикации| |Политика свободного доступа| |Старый сайт журнала|

inftech@vestnik.nsu.ru
© 2006-2017, Новосибирский государственный университет.