При поддержке Комиссии по работе с вузами и научным сообществом
при Епархиальном совете г. Москвы сообщество ученых Института русского
языка им. В.В. Виноградова РАН, Национального исследовательского
технологического университета «Московский институт стали и сплавов», Национального исследовательского университета
«Высшая школа экономики» реализует проект по созданию с помощью
технологий искусственного интеллекта и машинного обучения корпуса
древнеславянского языка — уникальной базы древнеславянских рукописных
текстов.
Создание корпуса древнеславянского языка даст
исследователям-лингвистам и историкам мощный инструмент для изучения
всех современных национальных славянских языков и культур и станет
уникальным ключом к пониманию их наследия. В данном случае корпус — это
структурированная база данных языка, информационно-справочная система,
основанная на собрании текстов на определенном языке в электронной
форме. Он представляет собой подобранную и особым образом обработанную
(размеченную) совокупность текстов, которые используются в качестве
основы для исследования лексики и грамматики языка.
Древнеславянские
тексты дошли до нас в разнообразных рукописных памятниках XI-XVII
веков. Создание системного корпуса языка связано с трудоемкой, тонкой и
кропотливой работой, требующей объединения усилий профессионалов из
различных областей и, по мнению ученых, является задачей
общенационального характера.
По словам заместителя председателя
Комиссии по работе с вузами и научным сообществом при Епархиальном
совете г. Москвы иеромонаха Родиона (Ларионова), в настоящее время «не
существует корпуса рукописных славянских текстов, и его создание
рассматривается учеными различных дисциплин как важная задача».
«Основной
объем древнеславянских — древнерусских, болгарских, сербских — текстов
XI-XVII веков, которые дошли до нас, — это несколько тысяч богослужебных
рукописей. Язык меняется от века к веку. Для ученых важно понять,
во-первых, почему эти изменения происходят, чем они продиктованы, что
влияет на их возникновение, а во-вторых, что эти изменения повлекли за
собой, — сказал отец Родион. — Если анализировать и систематизировать
человеческими ресурсами тот объем данных, который представляют собой
древнеславянские рукописи, — это астрономическая работа, которая
растянулась бы на века, учитывая, что профессионалов, которые способны
делать эту работу, в принципе очень мало. Технологии распознавания и
оцифровки текстов, машинного перевода и ИИ позволят провести это важную
работу в обозримое время».
Первым этапом проекта станет оцифровка и
разметка комплекса древнеславянских миней XI-XVII веков на
древнерусском, болгарском и сербском языках — служебных церковных книг,
содержащих распорядок служб всех дней церковного года, рукописи которых
хранятся в собраниях Государственного исторического музея, Российской
национальной и Государственной библиотек, Российского государственного
архива древних актов, Свято-Троицкой Сергиевой лавры.
Проекты
по использованию цифровых подходов к анализу культурного наследия
активно развиваются в европейских странах и являются прекрасным примером
междисциплинарного взаимодействия. В отношении языковых памятников
можно отметить два принципиальных направления работ — преобразование
сканированных изображений в машиночитаемый вид и построение языковых
моделей, упрощающих анализ и понимание текстов. Со славянскими текстами,
написание букв (графем) которых отличается витиеватостью и широким
использованием диакритических знаков, подобных системных наработок еще
не предпринималось.
Пресс-служба НИТУ «МИСиС»/Патриархия.ru