Разметка документов по семантическим ролям

Авторы

  • Н.А. Игнатьев Национальный университет Узбекистана имени Мирзо Улугбека Автор
  • К.Д. Абдуллаев Национальный университет Узбекистана имени Мирзо Улугбека Автор

Ключевые слова:

semantic roles, topic uniqueness, document grouping, regularizing criteria

Аннотация

Рассматривается разметка документов с учётом семантических ролей. Данные для тематических моделей формируются на основе стандартной гипотезы мешок слов. Вопрос о количестве и уникальности тем при моделировании не является решённым. В качествe причин называется отсутствие единых критериев для оценки качества кластеризации. Были попытки доказательства в форме эксперимента уникальности тем через использование набора критериев-регуляризаторов по результатам группировки документов. Отсутствие такого доказательства объясняется тем, что число групп изначально задается как свободный параметр. Для унификации документов в настоящее время применяются пять типов разметки: метатекстовая, морфологическая, синтаксическая, акцентная и семантическая. В работе используется семантическая разметка через выделение в предложении актантов – именных групп, обозначающих участников ситуации и их семантические роли. Предлагается при определении семантических ролей на узбекском языке проводить унификацию терминов применительно к конкретным предметным областям. Приведён пример разметки документов с использованием семантических ролей и определение их сходства по косинусной метрике.

Библиографические ссылки

Воронцов К.В. Вероятностные тематические модели(курс лекций, К.В.Воронцов) ВМК МГУ. 1 марта – 2018. URL: 1.http://www.MachineLearning.ru/wiki.

Воронцов К.В., Фрей А.И., Апишев М.А., Потапенко А.А. Тематическое моделирование в BigARTM: теория, алгоритмы, приложения. 14 июнь – 2015.

Воронцов К.В., Булатов В.Г., Алексеев В.П. Determination of the Number of Topics Intrinsically: Is It Possible? 14 June – 2024. https://arxiv.org/pdf/2406.10402.

Kleinberg J.M. An Impossibility Theorem for Clustering Jon Kleinberg Advances in Neural Information Processing Systems 15. NIPS – 2002.

Игнатьев Н.А., Тулиев У.Ю. Семантическая структуризация текстовых документов на основе паттернов сущностей естественного языка. Компьютерные исследования и моделирование – 2022. – Т.14 – №5 – С. 1185–1197.

Воронцов К.В. Разметка данных для обучения нейросетевых моделей языка как способ формализации гуманитарных знаний // XVIII научная конференция межрегиональной ассоциации .История и компьютер. Историческая информатика как Historical Data Science..

Tikhomirov М.М. ”Using bert and augmentation in named entity recognition for cybersecurity domain,” in Natural Language Processing and Information Systems: 25th International Conference on Applications of Natural Language to Information Systems, NLDB – 2020. Saarbrucken

Загрузки

Опубликован

2025-01-04

Выпуск

Раздел

Статьи