Типологии и автоматическое выявление регулярной полисемии

Авторы

  • Узбекский государственный университет мировых языков
Типологии и автоматическое выявление регулярной полисемии

Аннотация

Статья обобщает теоретические и вычислительные подходы к регулярной (систематической) полисемии – повторяющимся, правилосообразным переключениям смысла (организация/здание, содержание/контейнер, артефакт/информация и др.). Сначала излагаются типологии из формальной и лексической семантики: анализ «точечных» (dot) типов в Генеративном лексиконе, а также лексические правила, фиксирующие регулярные сдвиги между значениями разных лексем. Затем выделяются практические критерии для разметки и моделирования: селекционные предпочтения, контекстные синтаксические паттерны, тесты на копредикацию. Вычислительная часть синтезирует правил-, дистрибутив- и нейросетевые методы автоматического выявления: (1) извлечение паттернов из лексических ресурсов, (2) кластеризация контекстов с контекстуализированными эмбеддингами, (3) распознавание типов полисемии с слаботочными подсказками, (4) привязка к многоязычным инвентарям (напр., BabelNet). Предложен протокол оценки (precision/recall по наборам паттернов + суждения о допустимости копредикации). Краткие кейсы для русского и узбекского языков демонстрируют эвристики при дефиците ресурсов. Вклад – целостная, ориентированная на внедрение схема типологизации и автоматического выявления регулярной полисемии.

Ключевые слова:

Регулярная полисемия систематическая полисемия типология генеративный лексикон лексические правила дизамбигуация значений дистрибутивная семантика BabelNet

Введение

Регулярная (систематическая) полисемия – это не произвольная «многозначность вообще», а повторяющиеся в языке модели смысловых сдвигов, которые проявляются у целых групп лексем: университет как    учреждение и как здание, книга как физический объект и как информационное содержание, газета как организация и как печатное издание и т.п. Этот тип полисемии принципиально отличается от омонимии (например, лук ‘оружие’/‘овощ’), поскольку связи между значениями предсказуемы и системны. Теоретическая постановка проблемы восходит к работам Ю.Д. Апресяна, где вводится понятие «регулярной полисемии» как набора систематических смысловых соответствий (Apresjan, 1974).

Типологии регулярной полисемии

В Генеративном лексиконе Дж. Пустеджовски полисемичные лексемы описываются через «dot-типы» – сложные типы, сочетающие, например, физический объект и информацию (book) или учреждение и место (school/university). Механизмы коэрции и копредикации позволяют формально фиксировать, когда два аспекта «сосуществуют» в одной конструкции (эта книга тяжёлая, но интересная). Такая типизация задаёт естественную «карту» регулярных моделей (Pustejovsky, 1995).

Альтернативная линия – лексические правила (lexical rules), которые систематически «расщепляют» или «расширяют» смысл: контейнер/ содержимое (выпил бутылку), животное/ мясо (ягнёнок), растение/продукт (виноград/виноградник), организация/ здание (школа ремонтируется/школа объявила). Copestake & Briscoe (1995) различают конструкционную полисемию            и расширение смысла и показывают,                как эти процессы формализуются в ограничительно-базированных грамматиках.

Уточнённые типовые системы в духе Asher (Type Composition Logic) объясняют условия совместимости предикатов      (почему интересная и тяжёлая книга допустима, а интересный и кирпичный университет – нет), тем самым давая         тест для разграничения регулярной полисемии и «концептуальных коллизий» (Asher, 2011).

Экспериментальные данные показывают, что «близкие» метонимические смыслы часто разделяют представление, тогда как метафорические – обособлены;      это поддерживает идею повторяющихся, узнаваемых паттернов полисемии (Lopukhina et al., 2018; см. также обзор в Haber & Poesio, 2024).

Мы используем гибридную типологию, согласующую GL-dot-типы и лексические правила (с примерами на рус./узб./англ.):

  1. Организация ↔ локация (университет переполнен / университет объявил приём; universitet to‘liq / universitet e’lon qildi).
  2. Артефакт ↔ информация/контент (толстая/интересная книга).
  3. Контейнер ↔ содержимое (выпил целый бокал).
  4. Производитель/автор ↔ продукт/текст (Пушкин хорошо продаётся).
  5. Событие ↔ результат (строительство идёт / завершённый строительный объект).
  6. Животное ↔ мясо, растение ↔ продукт и др.

Эти классы поддаются формальным тестам: (а) копредикация (совместимость предикатов для разных аспектов), (б) селективные предпочтения (аргументная сочетаемость), (в) синтаксические       позиции (PP-рамки, принадлежность к именительным/экзистенциальным конструкциям).

Для автоматизации необходимы: (i) словарные графы и онтологии (WordNet-подобные ресурсы, BabelNet), (ii) размеченные корпуса для WSD, (iii) большие неразмеченные корпуса. BabelNet объединяет WordNet и Википедию в многоязычную сеть, что удобно для проекции паттернов между языками (Navigli & Ponzetto, 2010; Navigli & Ponzetto, 2012).

Автоматическое выявление регулярной полисемии: методы и пайплайн

  • Селективные предпочтения: если субъект/объект сочетается с глаголами речи (университет объявил), это сигнал org, а с предикатами физ. свойств (старое здание университета) – loc.
  • Зависимые предлоги/падежи: паттерны в/на + Norg для локации; руководство Norg для института.
  • Копредикационные ловушки: автоматическая проверка совместимости предикатов «разного типа» в одной координации.

Дистрибутивные и нейросетевые подходы.

Кластеризация контекстов полисемичного леммы с помощью контекстуализированных эмбеддингов (BERT-класс), последующая кластер-пометка через слабые правила (seed-слова/паттерны) и выравнивание с инвентарём типов (org/loc, cont/contnr и т.д.).

One-sense-per-collocation как эвристика, усиливающая распределение контекстов (Yarowsky, 1995), и классическое WSD как подсистема (Navigli, 2009).

Вводим для «подозрительных» лемм двойные типы (dot-типы) и проверяем их «активацию» по сетке признаков: предикаты-индикаторы содержимого vs. носителя, агента vs. места.

Для копредикации применяем простую типовую проверку в духе Asher: запрет на совместное предицирование несовместимых аспектов, разрешение –          при наличии dot-типа.

Инжиниринговый пайплайн.

  1. Кандидаты: список лемм с высокой вероятностью регулярной полисемии (из словарей/частотных списков + из BabelNet).
  2. Паттерны: извлекаем dependency-шаблоны для каждого класса (org/loc и пр.).
  3. Кластеризация контекстов: агломеративная или HDBSCAN над слоями [CLS]/токен-векторов.
  4. Семантическая маркировка кластеров: слабый супервайзинг на основе сидов/паттернов; сопоставление с инвентарём типов.
  5. Валидация копредикацией: автоматические «positive/negative» тесты по координациям (интересная и тяжёлая книга – позитив для content+physical).
  6. Линкинг: мэппинг на BabelNet/WordNet синсеты; экспорт в лексикон.

Оценивание

  • Метрики: Precision/Recall/F1 по вручную верифицированным наборам паттернов и лемм.
  • Человеческая проверка: приемлемость копредикации (Likert, минимум 3 эксперта).
  • Сравнение с WSD-базовыми линиями: оценка выигрыша от явного моделирования регулярной полисемии относительно чистой дизамбигуации (Navigli, 2009).

Пример анализа:

  • RU: газета, университет, министерство, стакан. Для газета признаки org: субъекты речевых глаголов (сообщила, опровергла); для print: материальные атрибуты (толстая, свежая).
  • UZ: universitet, maktab, idish/ichimlik. Падежные и послеложные конструкции (universitetda, maktab e’loni) надёжно разделяют loc и org; контейнер/содержимое выявляется по глаголам потребления (stakanni ichdi ≈ «выпил бокал»).
  • Валидация: в обеих системах копредикация служит отличителем «регулярной» модели от случайной омонимии.

Риск переобучения на поверхностных паттернах, переносимость между жанрами, а также неполные/шумные словари – ключевые препятствия. Перспективно объединение типовых тестов с «объяснимыми» атрибутами (правила + attention-раскладки) и выпуск многоязычной «таблицы» регулярных моделей для целевых доменов (медицина, образование, право).

Заключение

Регулярная полисемия – не шум, а структура. Её типологии (dot-типы, лексические правила) дают формальные ориентиры, а вычислительные методы – практические средства обнаружения и эксплуатации этих ориентиров в приложениях: от извлечения фактов до машинного перевода и терминографической консолидации.

Библиографические ссылки

Apresjan, J. D. (1974). Regular polysemy. Linguistics, 12(142), 5–32. https://doi.org/10.1515/ling.1974.12.142.5

Asher, N. (2011). Lexical Meaning in Context: A Web of Words. Cambridge University Press.

Copestake, A., & Briscoe, T. (1995). Semi-productive polysemy and sense extension. Journal of Semantics, 12(1), 15–67.

Haber, J., & Poesio, M. (2024). Polysemy – Evidence from linguistics, behavioral science, and contextualized language models. Computational Linguistics, 50(1), 351–417. https://doi.org/10.1162/coli_a_00500

Lopukhina, A., Laurinavichyute, A., Lopukhin, K., & Dragoy, O. (2018). The mental representation of polysemy across word classes. Frontiers in Psychology, 9, 192. https://www.frontiersin.org/articles/10.3389/fpsyg.2018.00192/full

Navigli, R. (2009). Word sense disambiguation: A survey. ACM Computing Surveys, 41(2), 1–69. https://doi.org/10.1145/1459352.1459355

Navigli, R., & Ponzetto, S. P. (2010). BabelNet: Building a very large multilingual semantic network. In Proceedings of ACL 2010 (pp. 216–225). Association for Computational Linguistics.

Navigli, R., & Ponzetto, S. P. (2012). The automatic construction, evaluation and application of a wide-coverage multilingual semantic network. Artificial Intelligence, 193–194, 217–250.

Pustejovsky, J. (1995). The Generative Lexicon. MIT Press.

Yarowsky, D. (1995). Unsupervised word sense disambiguation rivaling supervised methods. In Proceedings of ACL 1995 (pp. 189–196). Association for Computational Linguistics. https://doi.org/10.3115/981658.981684

Опубликован

Загрузки

Биография автора

Алина Ахмадуллина,
Узбекский государственный университет мировых языков

Преподаватель-стажер

Как цитировать

Ахмадуллина, А. (2025). Типологии и автоматическое выявление регулярной полисемии. Лингвоспектр, 9(1), 108–112. извлечено от https://lingvospektr.uz/index.php/lngsp/article/view/1032

Похожие статьи

1 2 3 4 5 6 7 8 9 10 > >> 

Вы также можете начать расширеннвй поиск похожих статей для этой статьи.