Новости

27.05.2024

Древнерусский корпус пополнен на 31 тыс. словоупотреблений. В него включены, в частности, памятники древнерусской литературы «Слово о погибели Русской земли» и «Задонщина», а также официально-деловые документы: «Устав князя Ярослава» и грамоты XIII—XV веков из Украины, Молдовы, литовско-белорусских земель, Смоленска, Новгорода, Пскова и Москвы. Словарь корпуса пополнился почти на тысячу лексем, в том числе добавлены более ранние упоминания таких современных слов, как чемодан, таможенник и странствие.

В Портрете слова Древнерусского корпуса появился виджет «Похожие слова». Как и в других корпусах, где доступен этот виджет, ближайшие семантические ассоциаты слова сгенерированы автоматически. Модель, использованная для поиска слов-ассоциатов в Древнерусском корпусе, а также обновленная векторная модель для Старорусского корпуса доступны для скачивания в разделе Нейросетевые модели НКРЯ.

27.05.2024

В мае мы значительно расширили возможности сразу нескольких корпусов: Старорусского, Церковнославянского и Устного. В этих корпусах теперь доступны новые виды выдачи: Статистика, Частотность и n-граммы. Благодаря новому функционалу можно узнать, например, какие сочетания глаголов в богослужебных текстах встречаются чащепойте и превозносите или радуйтеся и веселитеся, а также определить, какие глаголы в императиве чаще встречаются с дополнением руку.

Статистические данные также появились в Портрете слова и Портрете корпуса. Кроме того, пользователям Старорусского, Церковнославянского и Устного корпусов доступна настройка выгрузки примеров и сортировки в режиме KWIC.

В этих корпусах, а также в Древнерусском корпусе и корпусах «Русская классика» и «От 2 до 15» теперь действует поиск по лемме и словоформе с помощью регулярных выражений.

29.04.2024

Национальному корпусу русского языка – 20 лет!

29 апреля 2004 года сайт Корпуса был открыт для свободного доступа. Но работы по созданию НКРЯ начались значительно раньше, еще в 2000 году. Символично, что официальным «‎днем рождения»‎ Корпуса стало именно 29 апреля – день рождения российского лингвиста, автора Грамматического словаря русского языка А. А. Зализняка (1935-2017).

Всё началось с идеи создать полное собрание текстов, которые были бы показательными с культурной точки зрения и отражали бы разнообразие прозы, написанной в период с 1965 по 2000 год. Сейчас НКРЯ – это 49 корпусов общим объемом более двух миллиардов слов. За 20 лет Корпус стал незаменимым инструментом для лингвистов, преподавателей, студентов и всех, кто интересуется русским языком.

Поздравляем создателей проекта и тех, кто помогает ему развиваться! Благодаря вам НКРЯ продолжает расти и совершенствоваться, предоставляя новые возможности для изучения русского языка.

Для тех, кому интересно узнать больше об истории и современных возможностях Корпуса, мы подготовили подборку материалов:

  • Посмотрите, как выглядел сайт Корпуса 20 лет назад, в Музее НКРЯ.
  • Погрузитесь в историю создания Корпуса «‎из первых уст»‎ в специальном проекте ‎«‎Большого города»‎.
  • Ознакомьтесь с Руководством пользователя и узнайте, как использовать корпус для разных задач. 
  • Изучите публикации о Корпусе в недавно обновленном разделе. Рекомендуем обратить внимание на свежую публикацию в журнале «‎Вопросы языкознания» о фундаментальной реконструкции и модернизации платформы НКРЯ.
  • Скачайте и примените для собственных задач нейросетевые модели, которые используются для разметки слов и текстов Корпуса.
  • Узнайте, как получить офлайновую версию Корпуса для исследований.

Тех, кто хочет принимать участие в развитии корпуса, приглашаем вступить в группу «‎Друзья НейроКРЯ». Вы будете первыми узнавать о готовящихся проектах и сможете принимать в них участие. Недавно мы запустили новый эксперимент, чтобы выяснить, какие определения слов лучше воспринимаются пользователями: взятые из словарей или сгенерированные нейросетью.

26.04.2024

На сайте Национального корпуса русского языка появился новый раздел, посвящённый нейросетевым моделям, которые используются для разметки слов и текстов Корпуса. 

Теперь пользователям доступны:

  • токенизатор
  • векторные word2vec модели, обученные на текстах из 7 корпусов, которые мы используем для поиска слов-ассоциатов
  • модели для словообразовательной разметки
  • модели для разметки тематики, жанров, типов текстов

Новый раздел будет полезен всем, кто интересуется обработкой естественного языка и хочет узнать больше о том, какие технологии машинного обучения применяются в НКРЯ. Пользователи могут ознакомиться с описанием моделей и скачать их для собственного использования. Перед скачиванием модели надо ознакомиться с лицензионным соглашением и принять его условия.