АВТОМАТИЧЕСКОЕ ВЫЯВЛЕНИЕ ПРОЦЕССОВ КОНЪЮНКЦИОНАЛИЗАЦИИ В ТАДЖИКСКОМ И УЗБЕКСКОМ ЯЗЫКАХ С ИСПОЛЬЗОВАНИЕМ ТЕХНОЛОГИЙ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА
Abstract
В статье рассматриваются возможности применения технологий искусственного интеллекта для автоматического выявления процессов конъюнкционализации в таджикском и узбекском языках. Представлены результаты экспериментального исследования с использованием корпусных данных и алгоритмов машинного обучения. Разработана методика количественной оценки грамматикализации служебных элементов на основе частотного анализа и контекстного распределения. Приведены конкретные примеры переходных случаев между знаменательными и служебными частями речи в исследуемых языках.
Keywords:
конъюнкционализация грамматикализация таджикский язык узбекский язык искусственный интеллект корпусная лингвистика автоматическая разметка.Процессы конъюнкционализации представляют собой один из центральных механизмов грамматикализации в тюркских и иранских языках. Под конъюнкционализацией понимается постепенный переход полнозначных лексических единиц в разряд служебных слов – союзов и союзных аналогов. В условиях недостаточной изученности тюркско-иранского языкового ареала применение методов искусственного интеллекта открывает новые перспективы для систематического выявления и анализа данных явлений.
Современные технологии обработки естественного языка позволяют обрабатывать большие объемы текстовых данных и выявлять закономерности, недоступные при традиционном лингвистическом анализе [5, с. 1]. Особую актуальность это приобретает для языков с ограниченными цифровыми ресурсами, к которым относятся таджикский и узбекский.
Эмпирической базой исследования послужили:
- Таджикский веб-корпус (tgWaC), содержащий 50 миллионов словоупотреблений с морфологической разметкой [3, с. 95],
- Узбекские текстовые данные, обработанные системой UzbekTagger [6, с. 3],
- Дополнительный корпус объемом 100 миллионов токенов для таджикского языка [4, с. 92].
Методологически исследование опирается на сочетание корпусного анализа и алгоритмов машинного обучения. Нами разработан коэффициент конъюнкционализации (Kк), определяемый по формуле:
,
где Fc – частота употребления элемента в служебной функции, Ft – общая частота употребления, Dc – дистрибутивное разнообразие в служебных контекстах, Dm – максимальное дистрибутивное разнообразие для данного класса слов.
Анализ выявил несколько типичных траекторий конъюнкционализации. В таджикском языке наблюдается активное преобразование деепричастных форм в союзные конструкции [1, с. 76]. В узбекском языке процесс характеризуется более выраженной ролью аналитических структур [2, с. 145] (см. таблицы №1).
Таблица 1.
Количественные показатели конъюнкционализации отдельных элементов
|
Элемент (тадж.) |
Fc |
Ft |
Kк |
Статус |
|
вақте ки |
3847 |
4012 |
91.2 |
союз |
|
Гуфта |
1523 |
8965 |
18.4 |
переходный |
|
Дониста |
342 |
4127 |
8.7 |
лексема |
|
Элемент (узб.) |
Fc |
Ft |
Kк |
Статус |
|
Deb |
5234 |
5891 |
87.6 |
союз |
|
Keyin |
2891 |
6743 |
42.1 |
переходный |
|
Bilib |
876 |
4532 |
19.8 |
лексема |
Согласно полученным данным, элементы с коэффициентом Kк выше 75 уверенно идентифицируются как союзы, диапазон 30–75 соответствует переходной зоне, значения ниже 30 указывают на сохранение преимущественно лексического статуса. Применение технологии BERT-based разметки для узбекского языка показало точность определения служебных элементов на уровне 94.3% [7, с. 290], что существенно превышает результативность традиционных правиловых систем (см. таблица № 2).
Таблица 2.
Контекстное распределение элемента «вақте ки» (таджикский)
|
Синтаксическая позиция |
Частота |
% |
|
В начале придаточного |
3124 |
77.9 |
|
После подлежащего |
541 |
13.5 |
|
В составе сложного союза |
182 |
4.5 |
|
Прочие позиции |
165 |
4.1 |
Данное распределение демонстрирует высокую степень функциональной специализации элемента, что подтверждает завершенность процесса грамматикализации.
Сопоставительный анализ выявил существенные расхождения в механизмах конъюнкционализации. В таджикском языке преобладает модель «изафетная конструкция + указательное слово → составной союз» [1, с. 77], тогда как в узбекском доминирует схема «деепричастие → союз» [2, с. 146].
Искусственный интеллект позволяет отслеживать диахронические изменения через сопоставление текстов разных периодов. Например, элемент узбекского языка «-ganda» демонстрирует рост коэффициента Kк с 23.4 (тексты 1990-х) до 41.7 (тексты 2020-х), что свидетельствует об активной грамматикализации (см. таблицу № 3).
Таблица 3.
Сравнительная эффективность методов идентификации
|
Метод |
Точность (тадж.) |
Точность (узб.) |
|
Ручная разметка |
98.1% |
97.8% |
|
Правиловые системы |
76.3% |
81.2% |
|
BERT-based модели |
93.7% |
94.3% |
|
Гибридный подход |
95.4% |
95.9% |
Применение технологий искусственного интеллекта к исследованию процессов конъюнкционализации демонстрирует высокую результативность и открывает новые исследовательские перспективы. Разработанная методика количественной оценки позволяет объективизировать определение степени грамматикализации служебных элементов. Полученные результаты могут быть использованы для создания автоматических систем морфосинтаксической разметки, а также в лексикографической и грамматографической практике. Дальнейшие исследования должны охватить более широкий спектр служебных элементов и включить диахронический анализ корпусов различных временных периодов.
References
Норова Г. И., Кузиева Н. М. Сравнительный анализ грамматических особенностей подчинительных союзов в таджикском, арабском и английском языках (на материале союзов причины и цели) // In situ. – 2022. – № 12. – С. 75–79.
Рахматов М. М. Роль союзов в развитии синтаксиса узбекского языка // Asian Journal of Research in Social Sciences and Humanities. – 2022. – Т. 12, № 1. – С. 143–148.
Dovudov G., Suchomel V., Šmerk P. POS Annotated 50M Corpus of Tajik Language // Proceedings of the Workshop on Language Technology for Normalisation of Less-Resourced Languages (SALTMIL 8/AfLaT 2012). – Istanbul, 2012. – P. 93–98.
Dovudov G., Suchomel V., Šmerk P. Towards 100M Morphologically Annotated Corpus of Tajik // Proceedings of Recent Advances in Slavonic Natural Language Processing (RASLAN 2012). – Brno: Tribun EU, 2012. – P. 91–94.
Suchomel V., Šmerk P. Tajik Web Corpus (tgWaC) – Sketch Engine. 2011–2013. URL: https://www.sketchengine.eu/tajik-web-corpus/
Sharipov M., Kuriyozov E., Yuldashev O., Sobirov O. UzbekTagger: The rule-based POS tagger for Uzbek language. – arXiv preprint, 2023. – arXiv:2301.12711.
Bobojonova L., Akhundjanova A., Ostheimer P., Fellenz S. BBPOS: BERT-based Part-of-Speech Tagging for Uzbek // Proceedings of the First Workshop on Language Models for Low-Resource Languages (LoResLM 2025). – Abu Dhabi, 2025. – P. 287–293.
Published
Downloads
How to Cite
License
Copyright (c) 2025 Шахнозахон Анварходжаевна СОЛИХОДЖАЕВА

This work is licensed under a Creative Commons Attribution 4.0 International License.
