В 2011 году в свободном доступе открылся Осетинский национальный корпус.
База текстов разных авторов с принятой в корпусной лингвистике разметкой (грамматические категории и полексемный перевод) позволяет находить слова в определённой грамматической форме, уточняя их место в предложении и так далее. Это незаменимый инструмент как для лингвистов-исследователей, так и для простых учащихся.
«Даже в таком минимальном объеме, как сейчас, наш корпус среди иранских языков не знает аналогов как по объему (самый известный корпус — это персидский Bijan на основе газеты „Хамшахри“, однако у них меньше 3 млн словоупотреблений), так и по качеству разобранности», — комментирует Арсений Павлович Выдрин, кандидат филологических наук, координатор работы по составлению корпуса. Ни в одном из имеющихся корпусов иранских языков нет, например, одновремено поморфемного разбора, грамматических помет, переводов лексем, не реализованы удобные системы поиска.
В своём нынешнем виде Осетинский национальный корпус насчитывает более 5 миллионов словоупотреблений (то есть общая длина всех текстов — более 5 миллионов слов), поддержанная Российской академией наук работа над его расширением продолжается.
Ссылки по теме:
- Что такое корпус? (вводный текст на сайте Национального корпуса русского языка)
- Осетинский национальный корпус (быстрый поиск по корпусу слева внизу)
- Исследования по осетинской грамматике (современные исследования осетинского языка)
Ваш комментарий будет первым