Осетинский национальный корпус

В 2011 году в свободном доступе открылся Осетинский национальный корпус.

База текстов разных авторов с принятой в корпусной лингвистике разметкой (грамматические категории и полексемный перевод) позволяет находить слова в определённой грамматической форме, уточняя их место в предложении и так далее. Это незаменимый инструмент как для лингвистов-исследователей, так и для простых учащихся.

«Даже в таком минимальном объеме, как сейчас, наш корпус среди иранских языков не знает аналогов как по объему (самый известный корпус — это персидский Bijan на основе газеты „Хамшахри“, однако у них меньше 3 млн словоупотреблений), так и по качеству разобранности», — комментирует Арсений Павлович Выдрин, кандидат филологических наук, координатор работы по составлению корпуса. Ни в одном из имеющихся корпусов иранских языков нет, например, одновремено поморфемного разбора, грамматических помет, переводов лексем, не реализованы удобные системы поиска.

В своём нынешнем виде Осетинский национальный корпус насчитывает более 5 миллионов словоупотреблений (то есть общая длина всех текстов — более 5 миллионов слов), поддержанная Российской академией наук работа над его расширением продолжается.

Ссылки по теме:

Что такое корпус? (вводный текст на сайте Национального корпуса русского языка)
Осетинский национальный корпус (быстрый поиск по корпусу слева внизу)
Исследования по осетинской грамматике (современные исследования осетинского языка)

Ваш комментарий будет первым

Добавить комментарий Отменить ответ

Осетинский национальный корпус

﻿Ваш комментарий будет первым

Добавить комментарий Отменить ответ

Ваш комментарий будет первым