- PVSM.RU - https://www.pvsm.ru -
Обычно в преддверии Нового года мы обновляем наш датасет по Открытой семантике. В этом году было сделано много работы, но она не подошла к логическому завершению и мы продолжим её в следующем году. Сейчас же мы хотим рассказать о не менее важном открытом датасете, вызвавшим живой интерес на ряде лингвистических конференций этого года, как по стороны исследователей, так и со стороны представителей индустрии. Речь в посте пойдёт об открытом тональном словаре русского языка.
Тональность, или простыми словами хорошо/плохо — естественная характеристика слов. Естественная для человека и его восприятия, но не для понимания компьютером. Язык устроен таким образом, что в нём присутствует симметрия относительно полярности слов и отделить хорошие слова от плохих, не прибегая к внешней разметке, не представляется возможным. Собственно изначально задача создания тонального словаря возникла из потребности кластеризовать получаемые автоматически алгоритмом списки слов в соответствии с их полярностью.
Конечно, тональность является лишь одним из аспектов значения слова и реальное понимание сентимента требует полного семантического анализа, понимание ролей в конкретной ситуации и знание положения, занимаемого наблюдателем. Так, например, «снижение цены акций» для разных сторон может иметь различную тональность, а «издержки выросли» и «прибыль выросла» иметь разнонаправленную полярность, хотя в обоих словосочетаниях употребляется глагол расти, имеющий скорее положительную оценку (согласно нашему датасету).
Существует и довольно обширный спектр причин, по которым мы относим то или иное слово к конкретной тональности. Иногда это наши непосредственные ощущения — радость и тоска; иногда это качества человека — профессионализм и беспечность: а иногда такие понятия как образование или предпринимательство, связанные со сложными социальными институтами и дающие выгоду в долгосрочной перспективе. И оценка таких слов сильно связана с культурой и общественным договором. А, соответственно, может не иметь общепризнанной и универсальной оценки.
Тем не менее язык и коммуникация не могли бы существовать, если бы системы координат разных людей в рамках одной культуры не имели бы ничего общего между собой. А поэтому для достаточно больших групп слов их оценочная составляющая более-менее согласована.
Существует два основных способа сбора большого объёма лингвистических данных — привлечение экспертов и опрос людей (или более современная версия последнего — краудсорсинг). Не будем повторяться об очевидных различиях этих подходов, а лучше уделим внимание тем из них, которые оказывают непосредственное влияние на свойства получаемого датасета.
Экспертная разметка подразумевает чёткую ориентацию на будущее применение, а соответственно оговаривает способ принятия решения в ситуации неоднозначности, диктуемый данным применением. Для конечного датасета это означает:
Так, если эксперт составляет тональный словарь для анализа новостей, ориентированных на массовую аудиторию, то он занимает позицию обобщённого читателя и принимает на себя негласные соглашения между СМИ и читателями. Скажем «понижение стоимости» в таких установках будет иметь положительную оценку, а «рост тарифов» — отрицательную (согласно датасету РуСентиЛекс-2017).
Краудсорсинг лишён возможности задания подобных рамок и вряд ли является оптимальным средством для решения узкоспециализированных прикладных задач. Но он позволяет захватить другой важный аспект оценки тональности — согласованность между отвечающими. Какие-то слова будут однозначно оценены как положительные или отрицательные; какие-то разделят оценку между нейтральным и полярным вариантами; а небольшая группа слов покажет выраженную рассогласованность оценок.
Также, в отличие от экспертной оценки, краудсорсинг позволяет получить непрерывное значение полярности, разграничивая строго положительные (отрицательные), скорее положительные (отрицательные) и нейтральные слова. Распределение по этим группам зависит, конечно же, от выбранных пороговых значений. Впрочем дискретизацию проводить совершенно необязательно — возможно для ряда применений непрерывное значение будет более удобным.
Структура датасета довольно простая: это тональный словарь, ставящий в соответствие словам их оценку в диапазоне от -1 (предельная отрицательная оценка) до +1 (предельная положительная оценка). Для удобства указывается человекопонятный тег из набора «положительное», «нейтральное», «отрицательное» рассчитанный с использованием пороговых значений.
Дополнительно в данной версии датасета (есть ещё предыдущая, первая версия) приводятся сырые данные — процентное соотношение голосов, отданных за каждый из вариантов. Это позволяет применить пользовательские модели вычисления итоговой полярности и уровня согласованности разметки.
Прим. Представленная версия датасета покрывает наиболее узнаваемые слова РЯ (активный лексикон); словосочетания не размечались. При сравнении с другими словарями тональности мы обнаружили ряд слов, имеющихся в активном лексиконе, но не представленных в нашем наборе данных. Мы будем производить доразметку и планируем включить недостающие языковые единицы в течение следующего года.
Разметка сентимента — одна из частных задач в рамках исследования семантической системы языка. Как мы уже отмечали выше, полезность представленного набора данных напрямую зависит от возможности связать представленные в нём значения полярности с другой семантической информацией. С классами слов, например. Мы начали эту работу и планируем развивать её в дальнейшем.
Также важным направлением исследования является стремление понять причину окрашивания тех или иных слов, разведение слов, связанных с чувствами, эмоциями и непосредственной оценкой и тех слов, где описываемый ими концепт или ситуация сулят отложенную выгоду или потерю. А следовательно такие слова больше подвержены культурному и социальному влиянию.
Также планируется расширить разметку словосочетаниями, включая устойчивые выражения и фразеологизмы. Но здесь речь уже идёт о совсем других объёмах лексики, поэтому общая задача понять, как сентимент работает на более общем уровне (подробнее под спойлером).
Так например «снижение цен», «падение цен», «цены рухнули», «цены снизились» — это разные способы описать схожий процесс, но выраженный различными языковыми средствами. При этом в схожих контекстах можно встретить и другие концепты, имеющие количественное выражение — «падение уровня доверия», «рост уровня доходов» и т.д. В каждом случае достаточно понимать соответствие выше/ниже — хорошо/плохо (уровень знаний и мире) и какими лексическими средствами выражается движение в заданную сторону (уровень языка).
Будем рады любой обратной связи в комментариях — от критики работы и выбранных нами подходов до ссылок на интересные исследования и статьи по теме.
Если у вас есть знакомые или коллеги, которым может быть интересен опубликованный датасет, перешлите им ссылку на статью или репозиторий, чтобы помочь в распространении открытых данных.
Датасет: открытый тональный словарь русского языка [1]
Объём датасета составляет 28197 слов.
Датасет распространяется по лицензии CC BY-NC-SA 4.0 [2].
Автор: kdenisk
Источник [5]
Сайт-источник PVSM.RU: https://www.pvsm.ru
Путь до страницы источника: https://www.pvsm.ru/otkry-ty-e-danny-e/341342
Ссылки в тексте:
[1] Датасет: открытый тональный словарь русского языка: https://github.com/dkulagin/kartaslov/tree/master/dataset/emo_dict
[2] CC BY-NC-SA 4.0: https://creativecommons.org/licenses/by-nc-sa/4.0/
[3] Словарь оценочных слов и выражений русского языка РуСентиЛекс: https://www.labinform.ru/pub/rusentilex/index.htm
[4] Общедоступный тональный словарь и краудсорсинговая платформа для его создания Linis Crowd: http://linis-crowd.org/
[5] Источник: https://habr.com/ru/post/482052/?utm_campaign=482052&utm_source=habrahabr&utm_medium=rss
Нажмите здесь для печати.