Национальный корпус русского языка — представительная коллекция текстов
на русском языке
общим объемом более 2 млрд слов,
оснащенная лингвистической разметкой и инструментами поиска
Поиск по корпусам
Новости
Национальному корпусу русского языка – 20 лет!
29 апреля 2004 года сайт Корпуса был открыт для свободного доступа. Но работы по созданию НКРЯ начались значительно раньше, еще в 2000 году. Символично, что официальным «днем рождения» Корпуса стало именно 29 апреля – день рождения российского лингвиста, автора Грамматического словаря русского языка А. А. Зализняка (1935-2017).
Всё началось с идеи создать полное собрание текстов, которые были бы показательными с культурной точки зрения и отражали бы разнообразие прозы, написанной в период с 1965 по 2000 год. Сейчас НКРЯ – это 49 корпусов общим объемом более двух миллиардов слов. За 20 лет Корпус стал незаменимым инструментом для лингвистов, преподавателей, студентов и всех, кто интересуется русским языком.
Поздравляем создателей проекта и тех, кто помогает ему развиваться! Благодаря вам НКРЯ продолжает расти и совершенствоваться, предоставляя новые возможности для изучения русского языка.
Для тех, кому интересно узнать больше об истории и современных возможностях Корпуса, мы подготовили подборку материалов:
- Посмотрите, как выглядел сайт Корпуса 20 лет назад, в Музее НКРЯ.
- Погрузитесь в историю создания Корпуса «из первых уст» в специальном проекте «Большого города».
- Ознакомьтесь с Руководством пользователя и узнайте, как использовать корпус для разных задач.
- Изучите публикации о Корпусе в недавно обновленном разделе. Рекомендуем обратить внимание на свежую публикацию в журнале «Вопросы языкознания» о фундаментальной реконструкции и модернизации платформы НКРЯ.
- Скачайте и примените для собственных задач нейросетевые модели, которые используются для разметки слов и текстов Корпуса.
- Узнайте, как получить офлайновую версию Корпуса для исследований.
Тех, кто хочет принимать участие в развитии корпуса, приглашаем вступить в группу «Друзья НейроКРЯ». Вы будете первыми узнавать о готовящихся проектах и сможете принимать в них участие. Недавно мы запустили новый эксперимент, чтобы выяснить, какие определения слов лучше воспринимаются пользователями: взятые из словарей или сгенерированные нейросетью.
На сайте Национального корпуса русского языка появился новый раздел, посвящённый нейросетевым моделям, которые используются для разметки слов и текстов Корпуса.
Теперь пользователям доступны:
- токенизатор
- векторные word2vec модели, обученные на текстах из 7 корпусов, которые мы используем для поиска слов-ассоциатов
- модели для словообразовательной разметки
- модели для разметки тематики, жанров, типов текстов
Новый раздел будет полезен всем, кто интересуется обработкой естественного языка и хочет узнать больше о том, какие технологии машинного обучения применяются в НКРЯ. Пользователи могут ознакомиться с описанием моделей и скачать их для собственного использования. Перед скачиванием модели надо ознакомиться с лицензионным соглашением и принять его условия.
В апреле мы значительно усовершенствовали работу Древнерусского корпуса. В корпусе появились новые виды выдачи: Частотность, Статистика, n-граммы. Благодаря появлению в Древнерусском корпусе вида выдачи «Частотность» можно исследовать, например, какие существительные в корпусе чаще всего встречаются вместе. Кроме того, результаты выдачи теперь можно сортировать по контексту. В портрете корпуса появился Частотный словарь, доступный ранее в Основном, Газетном и других корпусах; частотный словарь памятников или их групп можно сравнивать со словарем корпуса текстов.
Появление нового функционала существенно расширяет возможности использования корпуса и автоматизирует рутинные процессы, которые ранее занимали у исследователя значительное время.
Мы продолжаем внедрять новый функционал, уже доступный в передовых корпусах — Основном, Газетных, Обучающем — в другие корпуса. Теперь пользователям НКРЯ доступна улучшенная версия корпуса «От 2 до 15». Во всех текстах корпуса автоматически снята грамматическая омонимия и добавлена разметка синтаксических связей. В корпусе стали доступны поиск по синтаксическим отношениям и поиск коллокаций, а также новые виды выдачи: частотность, н-граммы, статистика.
Обновились портрет слова и корпуса, добавлены новые виды сортировок по контексту.
В Портрете слова можно увидеть, что слова мама и папа гораздо чаще употребляются в текстах для самых младших читателей - 7-8 лет, а слова бабушка и дедушка - поровну в текстах для самых младших читателей и для подростков 14-15 лет.
Плашка возле фрагмента с указанием возраста читателей, которым эти фрагменты должны быть понятны, стала кликабельной. По клику вы увидите рассчитанные классические индексы сложности: Индекс Флеша-Кинкейда, Индекс Колман-Лиау, Автоматический индекс удобочитаемости, Simple Measure of Gobbledygook, Индекс Дейла-Чалл.