ВЕДУЩИЙ РОССИЙСКИЙ СИСТЕМНЫЙ ИНТЕГРАТОР

Лингвистические технологии системы «Аналитический курьер»

Более 10 лет в рамках проекта системы «Аналитический курьер» ведутся исследования в сфере прикладных технологий анализа современных естественных языков. Они используются во многих аналитических инструментах системы, позволяя находить важную и полезную информацию как на сайтах Интернет, так и в специализированных текстовых массивах.

Лингвистические технологии системы построены на языконезависимых алгоритмах, что позволяет обрабатывать тексты на практически любых языках. Это включает традиционную последовательность шагов обработки текста: формальный анализ языка (сегментация, токенизация), лексико-грамматический анализ (лемматизация, синтаксический анализ), а также семантический анализ (извлечение именованных и неименованных сущностей, поиск синонимов, анализ тональности).

Наибольший практический интерес вызывают технологии семантического анализ текста, например, извлечение комплексных сущностей. Комплексные сущности — это сущности со сложной структурой, включающей в себя другие сущности. Например, «директор компании «АБВ» Иванов» — комплексная сущность, описывающая физическое лицо, при этом содержащая указание на должность этого лица и аффилированную организацию. В отличие от сущностей, содержащих только именованную часть (например, могут быть различные организации с одинаковым названием, физические лица с одинаковыми ФИО и др.), они более точно идентифицируют информационные объекты. Выделение таких сущностей позволяет находить упоминания физических лиц, организаций, событий и прочих типов объектов в большом массиве разнородных текстов. Более того, лингвистика системы «Аналитический курьер» позволяет не только находить стандартный набор типов сущностей (персоны, организации, локации), но и искать типы сущностей, интересующие конкретных заказчиков (например, банки/информагентства/нефтепродукты). Она находит не только различные объекты (несколько десятков типов), но также и связи между ними: например, работает ли данное лицо в данной организации.

Востребованным направлением является поиск информации об отношении автора или других лиц к объектам текста (сущностям). Наша система также может выявлять тональность этого  отношения. Наша технология позволяет находить как источник оценки (например, автора оценочного высказывания), так и объект оценки.

В настоящее время ведётся работа по развитию технологий лингвистического анализа. Так, например, внедряются технология глубокого обучения и нейронных сетей для выделения семантических классов в текстах. Также проводятся эксперименты с применением онтологий и других источников информации к задачам лингвистического анализа. Это позволяет улучшить, например,  технологию выявления событий.

Ведутся разработки по использованию предсказательного моделирования, выявления трендов на основе анализа неструктурированных текстовых данных при помощи семантического анализа.