17.07.2025 09:20
В Новосибирске студентка создала приложение для анализа тибетских текстов
В Новосибирске, как сообщает НГУ в четверг, студентка университета создала приложение, которое использует машинное обучение для автоматического распознавания, оцифровки и анализа классических тибетских текстов.
Этот инновационный проект представляет собой уникальную программную платформу, которая будет полезна исследователям, архивистам и библиотекарям.
Такой новый фреймворк имеет целью сохранить тибетское текстовое наследие, которое является важной частью культурного достояния бурятского народа. Использование данного приложения позволит значительно упростить работу с тибетскими текстами, сделав их доступными для более широкого круга пользователей и исследователей. Это важный шаг в сохранении и изучении культурного наследия и традиций тибетского народа. Создание подобных инновационных технологий способствует сохранению и популяризации уникальных языков и культурных ценностей.Исследование, проведенное студенткой направления "Фундаментальная и прикладная лингвистика" гуманитарного института НГУ Анной Мурашкиной в Институте вычислительной математики и математической геофизики Сибирского отделения РАН, сфокусировано на системе, которая ориентирована на старопечатные документы, выполненные с использованием тибетского слогового письма, прослеживающего свои корни к древнеиндийскому письму брахми. Анна Мурашкина в своем исследовании анализировала изображения страниц классических тибетских текстов XVIII-XX веков из архивов."Старопечатные документы, рукописи и ксилографы содержат уникальные сведения о философии, религии, медицине, истории и искусстве, играя ключевую роль в изучении культурных традиций региона. Эти материалы представляют ценный источник информации, который помогает раскрыть многогранные аспекты жизни и культуры тибетского народа. Работа Анны Мурашкиной открывает новые перспективы для исследования и сохранения этого культурного наследия."Исследовательница подчеркивает, что важность сохранения и передачи знаний, хранимых в Тибете, становится все более актуальной в современном мире. В течение многих поколений эти ценные знания передавались из уст в уста, но сегодня сталкиваются с угрозой утраты из-за разрушения бумажных носителей под воздействием различных факторов. Одним из важных хранилищ тибетских хроник является Тибетский фонд Института монголоведения, буддологии и тибетологии СО РАН, где хранится до 70 тысяч единиц документов. Однако существует реальная угроза потери этой бесценной информации из-за физического износа материалов. С целью сохранения и систематизации исторических документов важным шагом является их оцифровка. Этот процесс позволит не только сохранить уникальные материалы, но и сделать их доступными для широкого круга исследователей и любителей тибетской культуры.Для улучшения качества оптического распознавания символов в тибетском тексте из фонда ИМБТ СО РАН, специалист провела лингвистическую разметку строк вручную. Это позволило разработать систему оценки качества OCR, учитывающую особенности тибетской графики. В ходе исследования была выбрана модель сверхточной нейросети, требующая дообучения.Она рассказала, что создала полный модульный алгоритм оптического распознавания символов, включающий этапы предобработки, сегментации, распознавания и постобработки. Благодаря этому ученым открылись новые возможности для оцифровки древних тибетских рукописей.Источник и фото - ria.ru