Журнал "Вычислительные технологии"

Информация о статье

2016 г., Том 21, № 4, с.3-15

Шокина Н.Ю., Мокен С.

Система интеллектуального анализа текста для создания электронных словарей в применении к исследованию церковнославянского языка

В статье представлена система интеллектуального анализа текста для создания электронных словарей в применении к исследованию церковнославянского языка. Для исследования географической и хронологической дифференциации церковно- славянского языка в 10-16 веках необходимо было разметить в формате TEI XML и занести в электронную базу данных пятнадцать церковнославянско-греческих словарей. Цифровые файлы со словарями в формате .doc были взяты в качестве исходного материала. На этапе предварительной обработки кодовая точка каждого символа в .doc файле преобразована в свой эквивалент в стандарте Юникод, и документы конвертированы из формата .doc в текстовый формат в Юникод.

Разработан оригинальный алгоритм распознавания образов для обнаружения текстовых элементов и последующего определения позиций размеченных элементов (или наборов элементов) в записи в формате TEI XML. Идея из области вычислительной гидродинамики, лежащая в основе алгоритма, успешно применена для решения задачи в области информационных технологий в гуманитарных науках.

Кратко описано применение принципов проектирования программного обеспечения. Заключительная обработка включала в себя автоматическую и ручную лемматизацию (присвоение нормализованной формы каждой церковнославянской и греческой лемме). Автоматическая лемматизация включает в себя проверку лемм по электронному лексикону и выполняется в процессе распознавания образов для обнаружения текстовых элементов. Ручная лемматизация выполняется лингвистом и заключается в проверке и, при необходимости, корректировке структурированного специальным образом текстового файла.

Благодаря универсальной модульной структуре разработанная система интеллектуального анализа текста может быть применена не только для исследования церковнославянского языка, но и для обработки словарей других языков.

[полный текст]
Ключевые слова: Информационные технологии в гуманитарных науках, интеллектуальный анализ текста, распознавание образов, лемматизация, разработка программного обеспечения, проектирование программного обеспечения, TEI XML, церковнославянский язык

Библиографическая ссылка:
Шокина Н.Ю., Мокен С. Система интеллектуального анализа текста для создания электронных словарей в применении к исследованию церковнославянского языка // Вычислительные технологии. 2016. Т. 21. № 4. С. 3-15