http://www.ras.ru/digest/showdnews.aspx?id=742a2263-de5d-40da-8ad5-7108e9643895&print=1
© 2024 Российская академия наук

ВСЕ 200 МИЛЛИОНОВ СЛОВ

12.12.2006

Источник: Московская правда, АНАСТАСИЯ ГРАДОВА



Академикам представили Национальный корпус русского языка.

Это понятие многим еще в новинку: справочно-информационная система русского языка в электронном варианте создана совсем недавно. В ноябре состоялась ее презентация на заседании Президиума Российской академии наук, где Национальный корпус представил директор Института русского языка им. В. В. Виноградова, член-корреспондент РАН Александр Молдован. Кроме этого института, в разработке системы участвовали также другие научные коллективы, в частности ВИНИТИ, Институт проблем передачи информации, Институт языкознания, Институт лингвистических исследований, государственные университеты Москвы, Санкт-Петербурга, Воронежа, Саратова, Казани и других городов России.

Что такое Национальный корпус? Это отражение языка на определенном этапе (или этапах) его существования и во всем многообразии жанров, стилей, территориальных, социальных вариантов, профессионального использования и т. п. Он содержит по возможности все типы письменных и устных текстов, наличествующие в языке. Это далеко не только художественная литература! И не только научные или публицистические тексты. Все жанры и стили - значит речь идет также о диалектах, деловом общении, разговорном языке, жаргонной речи и даже трепе по телефону, потому что язык умудряется охватить все это многообразие да еще постоянно подпитываться новыми словами, выражениями, понятиями. В этом основное отличие Национального корпуса от разного рода словарей: те действуют в строго очерченном пространстве, в пределах собственной специфики, а функции Национального корпуса многогранны, в его компетенции - все особенности языка в любых его проявлениях. Ученым, принимавшим участие в этой работе, было на что опираться, ведь подобные справочно-информационные языковые системы созданы во многих странах, большинство крупных языков мира уже имеет свои национальные корпуса. Общепризнанным образцом среди них считается британский (BNC). Среди славянских языков выделяется Чешский национальный корпус, созданный в Карловом университете Праги. Подобные справочные системы есть в США, Германии, Италии, Испании, Венгрии, Литве, Эстонии, Ирландии... На этом фоне работа, выполненная российскими учеными, как считают специалисты, не только соответствует лучшим образцам, но и значительно превосходит большинство действующих систем. Прежде всего - возможностью точного грамматического поиска по колоссальному массиву словоупотреблений. Сегодня их объем в Национальном корпусе русского языка составляет 120 миллионов, а планируемый составителями объем - 200 миллионов слов.

Система опирается на огромный пласт текстов русского языка с XIX по XXI век. Эти тексты можно искать по таким параметрам, как, например, автор (имя, пол, возраст), название, дата создания, объем (в словах), жанр (если речь о художественной литературе), функциональная сфера (реклама, производственно-технические тексты и т. д.), тип и тематика (наука, медицина, транспорт, спорт и т. п.). Зачем нужен такой корпус? Он предназначен в первую очередь ученым, профессионально занимающимся языком. Второе важное назначение - возможность получить справку, отныне не придется заниматься рутинной работой, просматривая тонны текстов и делая выписки вручную, система возьмет это на себя, выполнив задание практически мгновенно. И конечно, она пригодится не только лингвистам, но и людям самых разных профессий, а также просто ценителям русского языка.