АВТОМАТИЧЕСКОЕ ВЫЯВЛЕНИЕ ПРОЦЕССОВ КОНЪЮНКЦИОНАЛИЗАЦИИ В ТАДЖИКСКОМ И УЗБЕКСКОМ ЯЗЫКАХ С ИСПОЛЬЗОВАНИЕМ ТЕХНОЛОГИЙ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА

Authors

  • ГОУ «Худжандский государственный университет имени академика Б. Гафурова»
АВТОМАТИЧЕСКОЕ ВЫЯВЛЕНИЕ ПРОЦЕССОВ КОНЪЮНКЦИОНАЛИЗАЦИИ В ТАДЖИКСКОМ И УЗБЕКСКОМ ЯЗЫКАХ С ИСПОЛЬЗОВАНИЕМ ТЕХНОЛОГИЙ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА

Abstract

В статье рассматриваются возможности применения технологий искусственного интеллекта для автоматического выявления процессов конъюнкционализации в таджикском и узбекском языках. Представлены результаты экспериментального исследования с использованием корпусных данных и алгоритмов машинного обучения. Разработана методика количественной оценки грамматикализации служебных элементов на основе частотного анализа и контекстного распределения. Приведены конкретные примеры переходных случаев между знаменательными и служебными частями речи в исследуемых языках.

Keywords:

конъюнкционализация грамматикализация таджикский язык узбекский язык искусственный интеллект корпусная лингвистика автоматическая разметка.

Процессы конъюнкционализации представляют собой один из центральных механизмов грамматикализации в тюркских и иранских языках. Под конъюнкционализацией понимается постепенный переход полнозначных лексических единиц в разряд служебных слов – союзов и союзных аналогов. В условиях недостаточной изученности тюркско-иранского языкового ареала применение методов искусственного интеллекта открывает новые перспективы для систематического выявления и анализа данных явлений.

Современные технологии обработки естественного языка позволяют обрабатывать большие объемы текстовых данных и выявлять закономерности, недоступные при традиционном лингвистическом анализе [5, с. 1]. Особую актуальность это приобретает для языков с ограниченными цифровыми ресурсами, к которым относятся таджикский и узбекский.

Эмпирической базой исследования послужили:

  1. Таджикский веб-корпус (tgWaC), содержащий 50 миллионов словоупотреблений с морфологической разметкой [3, с. 95],
  2. Узбекские текстовые данные, обработанные системой UzbekTagger [6, с. 3],
  3. Дополнительный корпус объемом 100 миллионов токенов для таджикского языка [4, с. 92].

Методологически исследование опирается на сочетание корпусного анализа и алгоритмов машинного обучения. Нами разработан коэффициент конъюнкционализации (Kк), определяемый по формуле:

 ,

где Fc – частота употребления элемента в служебной функции, Ft – общая частота употребления, Dc – дистрибутивное разнообразие в служебных контекстах, Dm – максимальное дистрибутивное разнообразие для данного класса слов.

Анализ выявил несколько типичных траекторий конъюнкционализации. В таджикском языке наблюдается активное преобразование деепричастных форм в союзные конструкции [1, с. 76]. В узбекском языке процесс характеризуется более выраженной ролью аналитических структур [2, с. 145] (см. таблицы №1).

Таблица 1.

Количественные показатели конъюнкционализации отдельных элементов

Элемент (тадж.)

Fc

Ft

Статус

вақте ки

3847

4012

91.2

союз

Гуфта

1523

8965

18.4

переходный

Дониста

342

4127

8.7

лексема

 

Элемент (узб.)

Fc

Ft

Статус

Deb

5234

5891

87.6

союз

Keyin

2891

6743

42.1

переходный

Bilib

876

4532

19.8

лексема

Согласно полученным данным, элементы с коэффициентом Kк выше 75 уверенно идентифицируются как союзы, диапазон 30–75 соответствует переходной зоне, значения ниже 30 указывают на сохранение преимущественно лексического статуса. Применение технологии BERT-based разметки для узбекского языка показало точность определения служебных элементов на уровне 94.3% [7, с. 290], что существенно превышает результативность традиционных правиловых систем (см. таблица № 2).

Таблица 2.

Контекстное распределение элемента «вақте ки» (таджикский)

Синтаксическая позиция

Частота

%

В начале придаточного

3124

77.9

После подлежащего

541

13.5

В составе сложного союза

182

4.5

Прочие позиции

165

4.1

Данное распределение демонстрирует высокую степень функциональной специализации элемента, что подтверждает завершенность процесса грамматикализации.

Сопоставительный анализ выявил существенные расхождения в механизмах конъюнкционализации. В таджикском языке преобладает модель «изафетная конструкция + указательное слово → составной союз» [1, с. 77], тогда как в узбекском доминирует схема «деепричастие → союз» [2, с. 146].

Искусственный интеллект позволяет отслеживать диахронические изменения через сопоставление текстов разных периодов. Например, элемент узбекского языка «-ganda» демонстрирует рост коэффициента Kк с 23.4 (тексты 1990-х) до 41.7 (тексты 2020-х), что свидетельствует об активной грамматикализации (см. таблицу № 3).

Таблица 3.

Сравнительная эффективность методов идентификации

Метод

Точность (тадж.)

Точность (узб.)

Ручная разметка

98.1%

97.8%

Правиловые системы

76.3%

81.2%

BERT-based модели

93.7%

94.3%

Гибридный подход

95.4%

95.9%

Применение технологий искусственного интеллекта к исследованию процессов конъюнкционализации демонстрирует высокую результативность и открывает новые исследовательские перспективы. Разработанная методика количественной оценки позволяет объективизировать определение степени грамматикализации служебных элементов. Полученные результаты могут быть использованы для создания автоматических систем морфосинтаксической разметки, а также в лексикографической и грамматографической практике. Дальнейшие исследования должны охватить более широкий спектр служебных элементов и включить диахронический анализ корпусов различных временных периодов.

References

Норова Г. И., Кузиева Н. М. Сравнительный анализ грамматических особенностей подчинительных союзов в таджикском, арабском и английском языках (на материале союзов причины и цели) // In situ. – 2022. – № 12. – С. 75–79.

Рахматов М. М. Роль союзов в развитии синтаксиса узбекского языка // Asian Journal of Research in Social Sciences and Humanities. – 2022. – Т. 12, № 1. – С. 143–148.

Dovudov G., Suchomel V., Šmerk P. POS Annotated 50M Corpus of Tajik Language // Proceedings of the Workshop on Language Technology for Normalisation of Less-Resourced Languages (SALTMIL 8/AfLaT 2012). – Istanbul, 2012. – P. 93–98.

Dovudov G., Suchomel V., Šmerk P. Towards 100M Morphologically Annotated Corpus of Tajik // Proceedings of Recent Advances in Slavonic Natural Language Processing (RASLAN 2012). – Brno: Tribun EU, 2012. – P. 91–94.

Suchomel V., Šmerk P. Tajik Web Corpus (tgWaC) – Sketch Engine. 2011–2013. URL: https://www.sketchengine.eu/tajik-web-corpus/

Sharipov M., Kuriyozov E., Yuldashev O., Sobirov O. UzbekTagger: The rule-based POS tagger for Uzbek language. – arXiv preprint, 2023. – arXiv:2301.12711.

Bobojonova L., Akhundjanova A., Ostheimer P., Fellenz S. BBPOS: BERT-based Part-of-Speech Tagging for Uzbek // Proceedings of the First Workshop on Language Models for Low-Resource Languages (LoResLM 2025). – Abu Dhabi, 2025. – P. 287–293.

Published

Author Biography

Шахнозахон Анварходжаевна СОЛИХОДЖАЕВА,
ГОУ «Худжандский государственный университет имени академика Б. Гафурова»

доцент кафедры методики преподавания русского языка и литературы, к.ф.н.

How to Cite

СОЛИХОДЖАЕВА, Ш. А. (2025). АВТОМАТИЧЕСКОЕ ВЫЯВЛЕНИЕ ПРОЦЕССОВ КОНЪЮНКЦИОНАЛИЗАЦИИ В ТАДЖИКСКОМ И УЗБЕКСКОМ ЯЗЫКАХ С ИСПОЛЬЗОВАНИЕМ ТЕХНОЛОГИЙ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА. The Lingua Spectrum, 12(2), 626–628. Retrieved from https://lingvospektr.uz/index.php/lngsp/article/view/1344

Similar Articles

1 2 3 4 5 6 7 8 9 10 > >> 

You may also start an advanced similarity search for this article.