ВЕДУЩИЙ РОССИЙСКИЙ СИСТЕМНЫЙ ИНТЕГРАТОР

RoadMap развития системы «Аналитический курьер»

RoadMap развития системы «Аналитический курьер».

Наши решения предназначены для обеспечения:

  • различных сценариев работы аналитиков в зависимости от цели исследования и получаемых данных. Сценарий может включать последовательное применение методов TA и Data Mining (DM) к коллекциям документов, полученным в предыдущих результатах.
  • персонализации результатов с учетом профиля и истории работы пользователей.
  • полного цикла обработки документов: от поиска в источниках и доставки сообщений до получения полезных результатов.
  • предоставления информации об авторах сообщений поисковой выдачи и их профилях;
  • управления пользователями процессом создания групп синонимов (синсетов), построенными на сущностях, выделенных из текста. Изменения в составе синсетов не требуют последующего обновления семантического индекса (переиндексации документов). Изменения состава синсетов сразу учитываются во всех результатах, включающих сущности. Например, при анализе динамики упоминаний Top100 публичных персон выполняется объединение различных упоминаний одной персоны, входящих в синсет, в одну категорию частотного распределения. Аналогично, при просмотре связей объекта все его упоминания будут представлены одним узлом графа связей. Аналогично выполняется семантический поиск, рубрицирование и др.
  • семантического поиска документов;
  • комплексной поисковой выдачи, включающей сгруппированный список документов, сопровождаемый ее семантическими агрегатами: информационные поводы, профиль сущностей, спектр тональности и др.

Ниже представлены основные задачи разрабатываемых программных компонентов системы «Аналитический курьер».

1. Подсистема доставки сообщений из источников

Типы источников:

  • новостные сайты;
  • Top social networks, hostings of blogs and microblogs;
  • профессиональные форумы;
  • сайты отзывов и мнений о различных товарах, услугах и организациях;
  • поисковые сайты;
  • электронная почта;
  • сетевая файловая система;
  • базы данных;
  • источники документов пользователей, поддерживающие интерфейс подсистемы.

Основные задачи подсистемы:

  • адресный и тематический мониторинг источников;
  • автоматическая загрузка профилей авторов сообщений и формирование хранилища профилей;
  • единый программный интерфейс для подключения роботов для всех источников;
  • самоадаптирующийся временной регламент обхода источников;
  • масштабируемость роботов для управления производительностью доставки сообщений.

2. Подсистема загрузки документов в хранилище

Основные задачи:

  • очистка страниц сайтов от шумовых блоков. В основе лежит инновационный метод искуственного интеллекта, применяемый к анализу DOM дерева Xhtml страницы для выявления наилучшего узла c текстом страницы, с последующей его очисткой от мусорных элементов;
  • определение дубликатов и лексически похожих документов с использованием Locality-Sensitive Hashing метода;
  • выделение атрибутов документа (автор,дата публикации, ...) из текста с использованием метода The Support Vector Machine;
  • идентификация языков текста документа (~150) с использованием методов машинного обучения;
  • построение онтологий документов в нотации OWL и RDF.
  • разработка алгоритмов TA с использованием языка запросов SPARQL к хранилищу онтологий;
  • разработка следующих методов ТА с использованием методов машинного обучения для:
  • разрешения кореферентных и анафорических ссылок;
  • распознавания комплексных имен сущностей;
  • распознавания концептов;
  • выделения фактов;
  • выделения событий;
  • анализа мнений;
  • анализа тональности предложений текста, высказываний и их аргументов;
  • классификация потока документов в режиме NRT в соответствии с персональными таксономиями пользователей;
  • создание ETL конвейеров загрузки документов для каждого типа источников.

3. Поиск и доставка информации

Основные задачи:

  • персонализированный поиск с использованием модели релевантности, учитывающей историю запросов и профиль пользователя;
  • кросс-языковой поиск информации;
  • семантический поиск с использованием тезаурусов;
  • семантический поиск информации на естественном языке, поиск похожих документов, поиск перепечаток на основе сравнения графов онтологий документов;
  • группировка найденных документов по перепечаткам, источникам, сущностям, категориям и другим свойствам документов;
  • выдача результата поиска в режиме NRT вместе с его профилем, который может содержать частотные распределения найденных документов по их полям и выделенным знаниям, например, по ключевым сущностям, концептам, событиям, тональности и др. Уточнение результата поиска выбором нужных элементов профиля, например, нужных сущностей и тональности;
  • агрегирование в результатах DM всех сущностей и концептов, входящих в синсеты. Например, на когнитивной или кластерной картах, в облаке тегов, в частотном распределении сущностей и концептов, ... сущности агрегируются до их доминант.

4. Аналитическая обработка коллекции документов в режиме NRT

Основные задачи:

  • тематические рефераты;
  • категоризация (кластерный анализ и тематическое рубрицирование);
  • интерактивные когнитивные карты для серфинга по онтологии коллекции документов или всего хранилища онтологий, поиск эффективных связей, навигация, погружение в документы для групп связей и концептов;
  • OLAP технология работы с многомерными совместными частотными распределениями сущностей, концептов, высказываний, тональности, атрибутов документов (источники, авторы, ...);
  • социально-демографический анализ состава авторов сообщений.

5. Экспертная подсистема

Основные задачи:

  • выявление трендов в потоке сообщений;
  • построение гипотез о признаках информационных кампаний;
  • построение цепочек фактов, относящихся к событию;
  • группы авторов социальных медиа;
  • поиск похожих авторов в разных группах;
  • выявление ботов в группах.

6. Архитектура хранилища документов

  • Система может оказывать услуги в SaaS и PaaS вариантах.
  • Серверная часть системы имеет SOA архитектуру.
  • Хранилище документов — конфигурируемый «на лету» распределенный сервис хранения контента документов, полнотекстового и атрибутивного индексов, семантического представления документов (знаний) и семантического индекса. Использует платформу Big Data. Обеспечивает горизонтальное и вертикальное масштабирование хранилища. Имеет управляемую администратором степень надежности.