Сибирские ученые начали расшифровку старинных книг при помощи нейросети
05.04.2022
Источник: Российская газета, 05.04.2022. Ирина Штерман
В Институте монголоведения, буддологии и тибетологии СО РАН
хранится более 100 тысяч различных старинных документов на тибетском и
монгольском языках. Это настоящий кладезь древней мудрости. Но лишь малая часть
текстов переведена на русский язык. Сейчас расшифровку уникальных источников
начали ученые центра восточных рукописей и ксилографов Института
монголоведения, буддологии и тибетологии СО РАН и программисты Новосибирского
государственного университета. Для этого они привлекли систему искусственного
интеллекта.
Сколько еще открытий для пользы человечеству таит в себе
тибетская мудрость? Скоро узнаем.
- В данный момент мы учим ее читать по-тибетски, - говорит
директор института, академик Борис Базаров. - Для этого отсканировали 500
страниц рукописей и ксилографов (древние книги, напечатанные с досок), а затем
вручную набрали их на латинице, используя, в основном, систему
"Вайли", принятую для преобразования тибетского письма в буквы
латинского алфавита.
ОСОБЕННОСТЬ ТИБЕТСКОЙ ПИСЬМЕННОСТИ В ТОМ, ЧТО ОНА СЛОГОВАЯ, А
НЕ БУКВЕННАЯ
Эти 500 страниц стали "учебным пособием" для
нейросети, которую программисты научили запоминать изображение и соотносить его
с сопутствующим текстом. Кстати, на обучение ушло всего два часа. А потом
нейросеть прошла экзамен. Она сумела распознать тибетские тексты с точностью 94
процента. Но ученых она не удовлетворяет.
- Особенность тибетской письменности заключается в том, что
она слоговая, а не буквенная, - пояснил руководитель Центра восточных рукописей
Олег Ринчинов. - А ксилографы от других источников отличает неоднородность
изображения - где-то оттиск с доски четкий, а где-то бледный. К тому же над
источниками поработало время. Поэтому пока достигнута не самая высокая точность
распознавания текстов.
По мнению ученых, этот показатель можно довести и до 99
процентов, но за каждый дополнительный процент потребуется серьезно работать. К
примеру, чтобы увеличить ее до 95 процентов, понадобится "учить"
нейросеть на дополнительной тысяче примеров, а с 95 до 96 процентов - уже на 10
тысячах. Поэтому ручная транслитерация с тибетского на латиницу продолжается -
проект продлен минимум на пять лет. Кстати, для сравнения, профессиональному
переводчику-тибетологу требуется от трех до десяти лет на перевод одного
произведения.
- Это первый в мире опыт дешифровки тибетских текстов, -
уверен академик Базаров. - Перевод канонических, дидактических, медицинских
текстов даст более адекватное представление о древнем знании, позволит ввести в
оборот колоссальный материал. Поэтому проект продлен и все наши усилия сейчас
направлены на повышение точности распознавания текстов. После этого с помощью
нейросети мы сможем легко переводить первоисточники на другие языки.
Посетившие институт президент РАН Александр Сергеев и
председатель СО РАН академик Валентин Пармон высоко оценили потенциал хранилища
древней мудрости не только с культурологической, но и с практической стороны.
Например, по мнению Александра Сергеева, рецепты, содержащиеся в медицинских
книгах, могут быть использованы для изготовления биологически активных добавок
и даже лекарственных препаратов. Особенно актуальным это становится в
преддверии создания на территории Республики Бурятия биомедицинского кластера.
- В 2015 году китайский фармаколог Ту Юю получила Нобелевскую
премию за открытие нового средства для лечения малярии. Этот препарат
значительно снизил уровень смертности среди заболевших малярией. Получают его
из полыни, - привел один из самых ярких примеров использования древних знаний в
современности Борис Базаров. - А ведь существует трактат об охлажденной полыни
древнего тибетского автора. Сколько еще открытий для пользы человечеству таит в
себе тибетская мудрость? Скоро узнаем. А когда отработаем этот алгоритм,
добьемся стабильно работающей системы, то обязательно займемся дешифровкой и
старомонгольских текстов. Уверен, и в этом направлении нас тоже ждет научный
прорыв.
СПРАВКА "РГ"
Институт монголоведения, буддологии и тибетологии СО РАН
обладает одним из крупнейших в мире собранием старинных книг на тибетском и
монгольском языках, архивных документов, аудиозаписей, фотографий,
видеозаписей. Эти раритеты собирались 100 лет. Всего в фондах - более 100 тысяч
письменных памятников на тибетском языке и 7 тысяч - на старописьменном
монгольском. Это философская, медицинская, религиозная литература. Самые старые
из документов датированы XVI веком, а тексты в них - еще старше. Среди собрания
раритетов около 170 отдельных медицинских сочинений, посвященных медитативным
техникам, акупунктуре, хирургии, фармакологии. Из них только 10 процентов
переведены на русский язык.