Вестник НГУ
Серия: Информационные технологии

Научный журнал, основан в 2003 году

ISSN 2410-0420 (Online), ISSN 1818-7900 (Print)

Switch to
English

Все выпуски >> Содержание журнала: Том 10, Выпуск № 4 (2012)

Формальные методы определения авторства текстов
Татьяна Викторовна Батура

Институт систем информатики им. А. П. Ершова СО РАН
УДК : 519.68; 681.513.7; 612.8.001.57; 007.51.52

Аннотация
Представлен обзор формальных методов установления авторства (атрибуции) текстов. В статье приведено описание наиболее известных программных систем для определения авторского стиля, ориентированных на русский язык, предпринята попытка произвести их сравнительный анализ, выявить особенности и недостатки рассмотренных подходов. При решении задачи определения авторства текстов наибольший интерес и наибольшую сложность представляет анализ синтаксического, лексико-фразеологического и стилистического уровней текста. Экспертный анализ авторского стиля является трудоемким процессом, поэтому в работе уделяется внимание именно формальным методам идентификации автора текста. В настоящее время для атрибуции текстов применяются подходы из теории распознавания образов, математической статистики и теории вероятностей, алгоритмы нейронных сетей, кластерного анализа и др. Среди проблем, затрудняющих исследования в области атрибуции, можно выделить проблему выбора лингвостилистических параметров текста и составления выборки эталонных текстов. Необходимо проводить дальнейшие исследования, направленные на поиск новых или совершенствование уже имеющихся методов атрибуции текстов, поиск характеристик, позволяющих четко разделять стили авторов, в том числе на коротких текстах и на малых объемах выборки.

Ключевые слова
атрибуция текста, определение авторства, формальные параметры текста, авторский стиль, классификация текстов

Цитирование:
Батура Т. В. Формальные методы определения авторства текстов // Вестник НГУ Серия: Информационные технологии. - 2012. - Том 10, Выпуск № 4. - С. 81-94. - ISSN 1818-7900.

Полный текст публикации

Просмотр в формате PDF

Список цитируемой литературы
1. Романов А. С. Методика и программный комплекс для идентификации автора неизвестного текста: Автореф. дис. … канд. техн. наук. Томск, 2010. 26 с.
2. Рогов А. А., Гурин Г. Б., Котов А. А., Сидоров Ю. В., Суровцова Т. Г. Программный комплекс СМАЛТ // Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Труды Х Всерос. науч. конф. «RCDL'2008». Дубна, 2008. С. 155–160.
3. Марков А. А. Об одном применении статистического метода // Известия Императорской Академии наук. Сер. 6. 1916. Т. 10, № 4. С. 239–242.
4. Фоменко В. П., Фоменко Т. Г. Авторский инвариант русских литературных текстов // Новая хронология Греции: Античность в Средневековье. М.: МГУ, 1995. 422 с.
5. Хмелёв Д. В. Распознавание автора текста с использованием цепей А. А. Маркова // Вестн. МГУ. Сер. 9: Филология. 2000. № 2. С. 115–126.
6. Хмелёв Д. В. Классификация и разметка текстов с использованием методов сжатия данных // Все о сжатии данных, изображений и видео. 2003. URL: http://compression.ru/download/articles/classif/intro.html
7. Кукушкина О. В., Поликарпов А. А., Хмелев Д. В. Определение авторства текста с использованием буквенной и грамматической информации // Проблемы передачи информации. М.: Наука, 2001. Т. 37, № 2. С. 96–108.
8. Шевелёв О. Г. Разработка и исследование алгоритмов сравнения стилей текстовых произведений: Автореф. дис. … канд. техн. наук. Томск, 2006. 18 с.
9. Севбо И. П. Графическое представление синтаксических структур и стилистическая диагностика. Киев: Наук. дум., 1981. 192 с.
10. Мартыненко Г. Я. Основы стилеметрии. Л.: ЛГУ, 1988. 170 с.
11. Рогов А. А., Сидоров Ю. В., Король А. В. Автоматизированная система обработки и анализа литературных текстов СМАЛТ // Труды и материалы II Междунар. конгресса исследователей русского языка «Русский язык: исторические судьбы и современность». М: МГУ, 2004. С. 485–486.
12. Морозов Н. А. Лингвистические спектры: средство для отличения плагиатов от истинных произведений того или другого известного автора. Стилеметрический этюд // Известия Отдела русского языка и словесности Императорской Академии наук. 1915. Т. 20, кн. 4. С. 93–127.
13. Шевелёв О. Г. Методы автоматической классификации текстов на естественном языке: Учеб. пособие. Томск: ТМЛ-Пресс, 2007. 144 с.
14. Романов А. С., Мещеряков Р. В. Идентификация автора текста с помощью аппарата опорных векторов // Компьютерная лингвистика и интеллектуальные технологии: по материалам ежегодной Международной конференции «Диалог-2009». М.: РГГУ, 2009. Вып. 8, № 15. С. 432–437.

Информация о публикации
Вестник НГУ Серия: Информационные технологии, Том 10, Выпуск № 4 (2012).
Год издания: 2012
ISSN: 1818-7900 (Print), ISSN 2410-0420 (Online)
Издатель: Федеральное государственное автономное образовательное учреждение высшего образования "Новосибирский национальный исследовательский государственный университет"
Ссылка на репозиторий


|Головная| |Все выпуски| |Информация для авторов| |Редакционнный Совет| |Этические принципы| |Редакционная политика| |Контакты| |Оплата публикации| |Политика свободного доступа| |Старый сайт журнала|

inftech@vestnik.nsu.ru
© 2006-2017, Новосибирский государственный университет.