КОРПУС ТАДЖИКСКОЙ ПОЭЗИИ XX ВЕКА И ИНСТРУМЕНТЫ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА КАК РЕСУРС ОБУЧЕНИЯ НАРОДНО-РАЗГОВОРНОЙ ЛЕКСИКЕ (НА МАТЕРИАЛЕ ТВОРЧЕСТВА С. АЙНИ, М. ТУРСУНЗАДЕ, Л. ШЕРАЛИ)

Authors

  • ГОУ «Худжандский государственный университет имени академика Б. Гафурова»
КОРПУС ТАДЖИКСКОЙ ПОЭЗИИ XX ВЕКА И ИНСТРУМЕНТЫ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА КАК РЕСУРС ОБУЧЕНИЯ НАРОДНО-РАЗГОВОРНОЙ ЛЕКСИКЕ (НА МАТЕРИАЛЕ ТВОРЧЕСТВА С. АЙНИ, М. ТУРСУНЗАДЕ, Л. ШЕРАЛИ)

Abstract

В статье представлена концепция и методология создания цифрового корпуса таджикской поэзии XX века с интеграцией инструментов искусственного интеллекта для обучения народно-разговорной лексике. На материале произведений С. Айни, М. Турсунзаде и Л. Шерали разработана архитектура лингвистического корпуса с многоуровневой аннотацией разговорных языковых единиц. Описана технология «ПоэтКорпус-ИИ», включающая автоматизированные модули лексикографического анализа, семантической разметки и генерации образовательного контента. Предложены алгоритмы классификации народно-разговорной лексики по функционально-стилистическим и территориальным признакам с использованием методов машинного обучения.

Keywords:

корпусная лингвистика таджикская поэзия XX века народно-разговорная лексика искусственный интеллект в лингводидактике цифровые образовательные технологии лексикографическая аннотация

Народно-разговорная лексика составляет живую основу таджикского языка, однако систематизация и изучение этого пласта языка сталкиваются с методологическими трудностями. Поэзия XX века, особенно творчество классиков С. Айни, М. Турсунзаде и Л. Шерали, представляет богатейший материал народной речи, органично вплетенной в художественную ткань произведений [5, с. 8]. Однако отсутствие систематизированного цифрового ресурса затрудняет изучение и преподавание разговорной лексики.

Современные технологии корпусной лингвистики и искусственного интеллекта открывают новые возможности для систематизации языкового материала [1, с. 158]. ИИ-инструменты позволяют автоматизировать процессы аннотирования, классификации и создания образовательных ресурсов на основе аутентичных текстов [3, с. 213]. Применительно к таджикскому языку и литературе подобные разработки находятся на начальной стадии, что определяет актуальность данного исследования.

Народно-разговорная лексика в таджикском языке характеризуется особой экспрессивностью, территориальной вариативностью и функционально-стилистической маркированностью [2, с. 12]. В поэтических текстах она выполняет множественные функции: создание национального колорита, передача живой речи, усиление эмоционального воздействия, установление контакта с народной аудиторией.

Поэтические тексты представляют особую ценность для лингводидактики, поскольку стихотворная форма облегчает запоминание лексических единиц и их контекстуального употребления [4]. Ритмико-мелодическая организация стиха способствует естественному усвоению фонетических и интонационных особенностей разговорной речи.

Корпусный подход в лингвистике предполагает создание репрезентативных массивов текстов с многоуровневой разметкой, позволяющей проводить количественный и качественный анализ языковых явлений. Интеграция искусственного интеллекта расширяет возможности корпусных исследований, обеспечивая автоматизацию трудоемких процессов и создание интеллектуальных образовательных систем [7, с. 245].

Разработанный корпус представляет собой интегрированную цифровую платформу, состоящую из нескольких взаимосвязанных уровней.

Корпус включает полные поэтические собрания трех авторов общим объемом 2847 текстов и 486 тысяч словоупотреблений. Структура базы данных (см. таблицу № 1):

Таблица 1.

Структура текстового массива корпуса

Автор

Период творчества

Количество текстов

Словоупотреблений

Доля в корпусе (%)

С. Айни

1910-1954

812

138 247

28,4

М. Турсунзаде

1930-1977

1156

197 615

40,7

Л. Шерали

1941-2000

879

150 138

30,9

Итого

 

2847

486 000

100

Каждый текст сопровождается метаданными (год создания, место публикации, жанр, тематика, диалектная основа) и представлен в кириллической и латинской графике с параллельным отображением.

Разработана система многоуровневой разметки: морфологический слой (часть речи, грамматические характеристики, словоформа и лемма), семантический слой (тематическая группа, коннотация, синонимические ряды), стилистический слой (разговорное, просторечное, диалектное, фольклорное), территориальный слой (согдийский, хатлонский, горно-бадахшанский диалекты), частотный слой (абсолютная и относительная частотность употребления).

 Технология включает три ИИ-модуля: модуль автоматического выявления разговорной лексики (алгоритм машинного обучения обучен на 15 тысячах лексических единиц, распознает народно-разговорные слова с точностью 87,3%, использует признаки: морфологическая структура, контекстное окружение, частотность, семантическое поле), модуль семантической кластеризации (ИИ-система группирует лексику по тематическим кластерам, применяется модель Word2Vec для таджикского языка, расчет семантической близости по формуле косинусного сходства , модуль генерации образовательного контента (генеративная модель на основе трансформера создает контекстуальные примеры, упражнения, тестовые задания с автоматической проверкой). Веб-платформа обеспечивает конкордансный поиск с фильтрацией, визуализацию статистических данных (графики, диаграммы, облака слов), интерактивные словари с аудиопроизношением, ИИ-ассистента для консультаций по употреблению лексики, персонализированные учебные траектории для студентов.

Таблица 2.

Функционально-стилистическая классификация разговорной лексики

Категория

Описание

С. Айни

М. Турсунзаде

Л. Шерали

Всего

Бытовая лексика

Названия предметов быта, одежды, пищи

287

412

523

1222

Фольклорные выражения

Пословицы, поговорки, присловья

156

234

189

579

Территориальные диалектизмы

Региональные варианты слов

98

142

267

507

Эмоционально-экспрессивная лексика

Оценочные слова и выражения

203

318

401

922

Разговорные фразеологизмы

Устойчивые сочетания народной речи

134

198

245

577

Просторечная лексика

Сниженные, грубоватые выражения

45

78

112

235

Итого уникальных единиц

 

923

1382

1737

4042

 

Для каждого автора рассчитан индекс лексического разнообразия разговорной лексики:

где  – количество уникальных разговорных лексем,  – общее количество разговорных словоупотреблений.

Расчеты показывают:

  1. С. Айни:
  2. М. Турсунзаде:
  3. Л. Шерали:

Наиболее высокий показатель у Л. Шерали объясняется его глубокой укорененностью в народной речевой традиции и активным использованием региональной лексики Матчинского района [6].

Корпус позволяет выявить диалектную принадлежность разговорных единиц.

Коэффициент территориальной концентрации для автора  рассчитывается по формуле:

где  – доля диалектизмов зоны  у автора ,  – средняя доля по корпусу,  – количество диалектных зон.

Максимальный коэффициент у С. Айни ( ), что отражает преимущественное использование согдийского диалекта.

Корпус реализован с использованием следующего технологического стека:

I.База данных: PostgreSQL с полнотекстовым поиском,

  1. II. Морфологический анализатор: адаптированная модель для таджикского языка,

III. Векторные представления: Word2Vec с размерностью 300,

  1. IV. Генеративная модель: GPT-архитектура, дообученная на таджикских текстах,
  2. V. Веб-интерфейс: React с адаптивным дизайном,
  3. VI. API: RESTful для интеграции с внешними системами.

Производительность системы обеспечивает обработку поисковых запросов за 0,3-0,8 секунды при базе 486 тысяч словоупотреблений.

Дальнейшее развитие корпуса предполагает:

  1. Расширение материала: включение прозаических произведений XX века, современной поэзии XXI века,
  2. Мультимодальность: добавление аудио- и видеозаписей исполнения стихов для формирования фонетических навыков,
  3. Параллельные корпуса: создание переводных версий на русский, английский, персидский языки,
  4. Социолингвистическая разметка: аннотация по возрастным, гендерным, социальным характеристикам употребления лексики,
  5. Краудсорсинг: привлечение носителей диалектов для уточнения семантики и территориальной привязки слов.

Корпус таджикской поэзии XX века с интеграцией инструментов искусственного интеллекта представляет собой инновационный образовательный ресурс, сочетающий традиции национальной поэзии с современными цифровыми технологиями. Систематизация народно-разговорной лексики на материале творчества С. Айни, М. Турсунзаде и Л. Шерали создает научную базу для изучения живой речевой традиции и обеспечивает сохранение языкового наследия в цифровом формате. Применение методов машинного обучения позволяет автоматизировать лингвистический анализ и создавать персонализированные образовательные траектории для студентов-филологов.

References

Есионова, Е. Ю. Искусственный интеллект как альтернативный ресурс для изучения иностранного языка // Гуманитарные и социальные науки. – 2019. – № 3. – С. 155–166. [URL: https://cyberleninka.ru/article/n/iskusstvennyy-intellekt-kak-alternativnyy-resurs-dlya-izucheniya-inostrannogo-yazyka].

Зохидов, А. Разговорная лексика в современном таджикском языке (на материале художественной литературы): автореф. дис. … канд. филол. наук. – Душанбе, 1991. – 24 с. [URL: https://cheloveknauka.com/razgovornaya-leksika-v-sovremennom-tadzhikskom-yazyke-na-materiale-hudozhestvennoy-literatury].

Ибрагимова, Р. М. Искусственный интеллект в обучении английскому языку: новые горизонты и возможности // Вестник науки. – 2024. – № 7 (76). – Т. 3. – С. 212–214. [URL: https://www.вестник-науки.рф/article/16857].

Макарова, Т. Н. Работа с поэтическими текстами в обучении иностранному языку // Аграрное образование и наука. – 2016. – № 6. [URL: https://cyberleninka.ru/article/n/rabota-s-poeticheskimi-tekstami-v-obuchenii-inostrannomu-yazyku].

Нематова, М. Х. Народно-разговорные единицы в таджикской поэзии XX века (на материале творчества С. Айни, М. Турсунзаде, Л. Шерали): автореф. дис. … канд. филол. наук. – Худжанд, 2010. – 24 с. [URL: https://cheloveknauka.com/narodno-razgovornye-edinitsy-v-tadzhikskoy-poezii-xx-veka].

Нуъмонзода, М. Ш. Народно-разговорная лексика в творчестве Лоика Шерали (на основе материала сборника «Вараки санг» – Душанбе: Ирфон, 1980) // Вестник Педагогического университета. – 2019. [URL: https://cyberleninka.ru/article/n/narodno-razgovornaya-leksika-v-tvorchestve-loika-sherali-na-osnove-materiala-sbornika-varaki-sang-dushanbe-irfon-1980].

Рольгайзер, А. А. Перспективы использования искусственного интеллекта в практике преподавания иностранного языка // Актуальные вопросы лингводидактики и методики преподавания иностранных языков: сб. науч. ст. – Чебоксары: Чуваш. гос. пед. ун-т, 2022. – С. 243–248.

Published

Author Biography

Мукаддас Хабиб НЕЪМАТЗОДА,
ГОУ «Худжандский государственный университет имени академика Б. Гафурова»

к.ф.н., доцент, декан инженерно-педагогического факультета 

How to Cite

НЕЪМАТЗОДА, М. Х. (2025). КОРПУС ТАДЖИКСКОЙ ПОЭЗИИ XX ВЕКА И ИНСТРУМЕНТЫ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА КАК РЕСУРС ОБУЧЕНИЯ НАРОДНО-РАЗГОВОРНОЙ ЛЕКСИКЕ (НА МАТЕРИАЛЕ ТВОРЧЕСТВА С. АЙНИ, М. ТУРСУНЗАДЕ, Л. ШЕРАЛИ). The Lingua Spectrum, 12(2), 585–589. Retrieved from https://lingvospektr.uz/index.php/lngsp/article/view/1335