ВЕДУЩИЙ РОССИЙСКИЙ СИСТЕМНЫЙ ИНТЕГРАТОР

Анализ тональности текста (на примере русского и английского языков)

Оценка тональности производится в отношении объекта оценки на уровне оценочного высказывания (как правило, предложения).

Оценка тональности производится в отношении объекта оценки на уровне оценочного высказывания (как правило, предложения). Одним из важнейших требований при разработке системы было требование высокой производительности системы. По этой причине пришлось отказаться от технологий глубокого лингвистического анализа входящего текста.

Технология

Реализованный в «Аналитическом курьере» программный компонент оценки тональности использует лексико-синтаксические правила, применённые к результатам лингвистического анализа входящего текста. Гибкая система описания правил, использующая различную информацию о лингвистических характеристиках единиц текста, позволяет описывать большое количество сложных оценочных конструкций. Во внимание принимаются следующие лингвистические и структурные характеристики входного текста: частеречная принадлежность, наличие и позиция отрицания, дистанция между объектом оценки и маркером оценки, наличие и позиция объекта оценки и пр.

Также важным инструментом анализа тональности является специализированная программа  поверхностного синтаксического анализа оценочных высказываний, которая применяется только к тем структурам текста, которые содержат оценочные компоненты, что позволяет сочетать высокую скорость обработки с необходимой глубиной лингвистического анализа.

Показатели качества определения тональности

для английского языка

Измерение качества определения тональности производилось на двух корпусах текстов. Один из них состоял из сообщений Твиттера, другой — из публикаций в социальных сетях, содержащих оценки различным сервисам и услугам.

В качестве системы для сравнения была выбрана новейшая разработка исследователей Стенфордского университета, обученная на корпусе оценочных высказываний, представленных в виде деревьев синтаксического разбора. Она выполняет глубокий синтактико-семантический анализ входящего текста и способна анализировать тональность в отношении каждого объекта внутри такого предложения.

В результате испытаний было установлено, что:

  1. Cкорость обработки у компонента анализа тональности системы «Аналитический курьер» в 20-50 раз выше аналога (30-80 кб/сек против 1.5 кб/сек) на больших предложениях и в 5-6 раз выше - на коротких предложениях (твиттах);
  2. Точность классификации тональности предложенной системы значительно превосходит точность Стенфордского классификатора на текстах Твиттера (94-94% против 62-68%) и на негативных комментариях из соц. сетей (72% против 37%), на положительных комментариях точность приблизительно одинаковая (95-96%);
  3. Покрытие у нашего компонента ниже, чем у Стенфорда: 30-40% против 50-70%.

Высокая точность определения тональности для нас является более важным параметром, чем несколько сниженное покрытие. Тем более, что повысить покрытие можно путём добавления лексико-синтаксических правил определения тональности.

В целом, результаты тестирования системы показали высокую скорость обработки текста и удовлетворительные характеристики качества анализа, сопоставимые с мировыми аналогами. Похожие показатели получены для других мировых языков.

Компонент может использоваться в различных системах для обработки больших потоков документов и WEB-сообщений как за счет увеличения количества параллельных процессов обработки текста, так и за счет фрагментации длинных текстов.

для русского языка

Система анализа тональности для русского языка развивается долгое время и основана на глубоком лингвистическом анализе входящего текста и полной обработке оценочных высказываний в отношении найденных сущностей. Текущее тестирование показывает уровень точности определения тональности в оценочном высказывании 75-85%, что можно признать удовлетворительным результатом, учитывая комплексный подход к оценке тональности на уровне высказывания (а не на уровне текста или группы текстов без выделения актантов высказывания), включающий выделение субъекта, объекта и модификаторов оценки.