Новый сайт журнала https://journals.nsu.ru/jit/

NSU Journal of Information Technologies


Вестник НГУ
Серия: Информационные технологии

Научный журнал, основан в 2003 году

ISSN 2410-0420 (Online), ISSN 1818-7900 (Print)

Switch to
English

Все выпуски >> Содержание журнала: Том 11, Выпуск № 4 (2013)

Выявление нечетких дубликатов при автоматическом формировании тематических коллекций документов на основе Web-публикаций
Юрий Алексеевич Загорулько, Наталья Васильевна Саломатина, Алексей Сергеевич Серый, Елена Анатольевна Сидорова, Владимир Константинович Шестаков

Аннотация
Рассматриваются методы выявления нечетких дубликатов в тематических коллекциях документов, формируемых в автоматическом режиме на основе публикаций, полученных из сети Интернет. Основное внимание уделяется различным модификациям метода шинглов, который позволяет достаточно быстро выполнить сравнение большого количества текстов без их предварительной обработки, что особенно важно при первичном отборе текстов для коллекции.

Ключевые слова
текстовые коллекции, методы сравнения текстов, метод шинглов, поиск нечетких дубликатов, веб-документы, веб-ресурсы

Цитирование:
Загорулько Ю. А., Саломатина Н. В., Серый А. С., Сидорова Е. А., Шестаков В. К. Выявление нечетких дубликатов при автоматическом формировании тематических коллекций документов на основе Web-публикаций // Вестник НГУ Серия: Информационные технологии. - 2013. - Том 11, Выпуск № 4. - С. 59–70. - ISSN 1818-7900.

Полный текст публикации

Просмотр в формате PDF

Список цитируемой литературы
1. Зеленков Ю. Г., Сегалович И. В. Сравнительный анализ методов определения нечетких дубликатов для WEB-документов // Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Тр. IX Всерос. науч. конф. Переславль-Залесский, 2007. Т. 1. С. 166–174.
2. Manber U. Finding Similar Files in a Large File System // Proc. USENIX WINTER Technical Conference. 1994. P. 1–10.
3. Broder A., Glassman S., Manasse M. Zweig G. Syntactic Clustering of the Web // Comput. Netw. ISDN Syst. 1997. Vol. 29. P. 1157–1166.
4. Fetterly D., Manasse M., Najor M. et al. A Large-Scale Study of the Evolution of Web Pages // ACM. 2003. P. 669–678.
5. Rabin M. Fingerprinting by Random Polynomials. Center for Research in Computing Technology. Harvard, 1981. 24 p.
6. Kołcz A., Chowdhury A. Lexicon Randomization for near-Duplicate Detection with I-Match // The Journal of Supercomputing. 2008. Vol. 45. Is. 3. P. 255–276.
7. Соченков И. В. Метод сравнения текстов для решения поисково-аналитических задач // Искусственный интеллект и принятие решений. 2013. Вып. 2. С. 32–43.

Информация о публикации
Вестник НГУ Серия: Информационные технологии, Том 11, Выпуск № 4 (2013).
Год издания: 2013
ISSN: 1818-7900 (Print), ISSN 2410-0420 (Online)
Издатель: Федеральное государственное автономное образовательное учреждение высшего образования "Новосибирский национальный исследовательский государственный университет"
Грантовая поддержка: Работа выполнена при финансовой поддержке Министерства образования и науки Российской Федерации (договор № 02.G25.31.0054).
Ссылка на репозиторий


|Головная| |Все выпуски| |Информация для авторов| |Редакционнный Совет| |Этические принципы| |Редакционная политика| |Контакты| |Оплата публикации| |Политика свободного доступа| |Старый сайт журнала|

inftech@vestnik.nsu.ru
© 2006-2019, Новосибирский государственный университет.