English
!

Доклады

Продуктивные синтаксические модели

Кедрова Г.Е.1, Потемкин С.Б.

МГУ им. Ломоносова, филологический факультет т. +74959164723 prolexprim@gmail.com

1МГУ им. Ломоносова, филологический факультет т. +74959164723 kedr@philol.msu.ru

При оценке эффективности учебного материала, предназначенного для овладения языком иностранными студентами в рамках учебного курса «Русский как иностранный» важно понять, какие синтаксические структуры, предложенные для изучения, наиболее употребительны в ежедневном общении.

В качестве исходного материала используется русско-китайский разговорник, который представляет собой ряд слов и предложений на двух языках (в нашем случае, русский и китайский). Проведена токенизация и лемматизация русского текста с определением части речи (POS) и грамматических признаков (род, число, падеж) каждой словоформы. Затем выполнялся поверхностный синтаксический разбор каждого предложения на основании алогитма Нивра. Полученные синтаксические связи сортируются по частоте встречаемости. Ожидаемо, наиболее частотной структурой оказывается форма субъект – глагол – объект (SVO). Именные группы представлены в основном формами сущ.им.падеж – сущ.род.падеж; притяжательное местоимение – сущ.; прилагательное – сущ., согласованные по роду, числу, падежу.

Каждая синтагма подставляется в запрос к НКРЯ. В ответ получен список всех предложений, содержащих пару слов этой синтагмы на заданном расстоянии (от 1 до 3) и общее число таких предложений. Следующей задачей является определение продуктивности структуры предложения. В наиболее употребительных синтагмах будем заменять включенные в нее слова другими словами, принадлежащими к той же части речи, из словника разговорника. Полученные в результате синтагмы также проверяются на употребительность по НКРЯ. Сумма частот по каждой такой синтагме определяет ее продуктивность и, следовательно, целесообразность ее включения в учебный материал.

© 2004 Дизайн Лицея Информационных технологий №1533