ВЕДУЩИЙ РОССИЙСКИЙ СИСТЕМНЫЙ ИНТЕГРАТОР

Аналитический курьер

Система извлечения знаний из документов. Инструмент для исследования событий, проблем или объектов путем мониторинга ресурсов сети Интернет и других источников.

 

Развитие аналитики происходит в направлении анализа потока данных в реальном времени с целью прогнозирования будущих событий (см. Основные технологические и рыночные тренды). Происходит переход от анализа простых структурированных данных к анализу сложной, часто неструктурированной информации (текст, видео и т. д.), получаемой от множества систем (см. Проблемы современных методов анализа текста).

Более 10 лет компания «Ай-Теко» развивает технологии извлечения знаний и аналитической обработки текстовой информации. Она является правообладателем системы извлечения знаний из документов «Аналитический курьер» — инструмент аналитической разведки информационного пространства (см. Цель проекта «Аналитический курьер»). Ее отличают следующие возможности:

  • анализ мнений субъектов относительно объектов (Opinion Mining);
  • анализ тональности в отношении объектов (N-view Object Level Sentiment Analysis) Анализ тональности текста;
  • анализ связей между объектами и темами в объеме всего хранилища документов;
  • выявление источников информационных кампаний и атак, поиск перепечаток;
  • мониторинг наиболее обсуждаемых тем и сюжетов в потоке поступающих документов;
  • социометрия авторов и сообщений, пространственная локализация авторов;
  • анализ динамики развития событий, частотный анализ тем, сообщений и т.п.;
  • прогноз появления событий нужных типов и определение их значимости;
  • тематическая классификация входных сообщений;
  • анализ рейтинга и профилей авторов социальных медиа;
  • выявление социологически значимых признаков профиля авторов;
  • анализ социального графа пользователей, выявление и анализ Интернет-сообществ.

«Аналитический курьер» может использоваться для выявления источников информационных кампаний и атак. В области прогнозной аналитики инструменты семантического анализа текста применяются для прогнозирования появления определенных событий, для выявления их информационных профилей и др. (см. RoadMap развития системы «Аналитический курьер»). 

В состав системы входит отказоустойчивое масштабируемое хранилище Big Data, позволяющее надежно и эффективно обрабатывать миллиарды документов. Оно может использоваться отдельно от системы, входит в состав многих приложений, разработанных для различных пользователей. Оно обеспечивает удаление/выгрузку документов по правилам. Например, удаление документов по «возрасту» из выбранных источников. Это позволяет эффективно использовать дисковое пространство хранилища.



Особенности реализации системы

Система использует современные методы и технологии обработки данных (см. Используемые в компонентах системы базовые методы и технологии).

Источники сообщений:

  • мониторинг интернет-пространства с использованием поисковых сайтов;
  • мониторинг сети Интернет роботами системы (для всех типов источников). Реестр ресурсов для мониторинга может изменяться пользователями. Базовыми источниками сообщений и профилей авторов являются:
    • Социальные сети
      • Facebook
      • VKontakte
      • Odnoklassniki
      • Google+
      • LinkedIn
      • Мой Мир
      • Instagram
      • Twitter
      • и др.
    • Видеохостинги
      • RuTube
      • YouTube
    • Блоги
      • LiveJournal
      • LiveInternet
      • Blogspot
    • Специализированные сайты
      • Avito
      • Из рук в руки
    • Форумы
      • отзывов и мнений о различных товарах, услугах и организациях
      • Форумы на платформе phpBB
      • Форумы на платформе punBB
    • Прочее
      • Любые RSS ленты
      • Произвольные сайты (XPath/HTML5)
  • автоматическая загрузка профилей авторов сообщений и формирование хранилища профилей;
  • расчет рейтинга загружаемых страниц сайтов и рейтинга авторов социальных медиа;
  • мониторинг сообщений электронной почты, документов из сетевой файловой системы и записей баз данных;

Загрузка в хранилище:

  • очистка страниц, анализ дублей, выделение атрибутивной информации, непрерывная загрузка в хранилище сообщений;
  • потоковое извлечение из документов сущностей, тем, объектов и их связей, мнений и тональности на нескольких языках;
  • тематическая классификация документов;
  • оповещения пользователей о наступлении значимых событий;

Поиск информации:

  • персонализированный поиск (ранжирование документов поисковой выдачи с учетом истории запросов пользователя);
  • мультиязычный и кросс-языковой поиск информации;
  • многоязычный семантический поиск с использованием современных тезаурусов русского и других языков;
  • семантический поиск информации на естественном языке, поиск похожих по содержанию документов, поиск перепечаток;
  • уточненный поиск в найденных документах;

Результаты поиска:

  • группировка найденных документов по дублям, источникам, тональности и другим полям документов;
  • выдача результата поиска вместе с ее тематическим профилем в виде частотных распределений авторов, ключевых сюжетов и тем, источников, дат публикаций и др. свойств найденных документов;
  • семантическое группирование результатов работы с использованием групп из разных названий одной темы или объекта (группа синонимов, синсет). Например, в частотном распределении частоты различных категорий из одного синсета будут представляться одним значением – доминантой (например, Президент России В.В. Путин -> Президент России, Президент Путин, Владимир Владимирович Путин, … ). На семантической, кластерной картах, в ключевых темах, сюжетах, …, аналогично. Если пользователь добавил в группу синонимов новые названия, то результат семантического поиска автоматически станет более полным.

Аналитическая обработка:

  • реализация сложных сценариев аналитической обработки результатов поиска, например, сначала можно выполнить анализ тематической (кластерной) структуры коллекции документов, затем построить карту связей тем и объектов для выбранного кластера, после чего произвести частотный анализ тональности документов по отношению к этим темам и др.;
  • тематические рефераты коллекции документов;
  • категоризация, автоматическое выделение тематических групп в поисковой выдаче документов (кластерный анализ) и тематическое рубрицирование документов;
  • выявление ключевых тем поисковой выдачи документов, создание облака тегов коллекции документов;
  • визуализация графа взаимосвязей тем и объектов коллекции документов в виде интерактивной семантической карты, навигация по карте, погружение в документы;
  • навигация по связям выделенных пользователем тем или объектов в объеме хранилища документов;
  • построение интерактивных многомерных частотных распределений тем, высказываний, тональности, значений атрибутов сообщений (источники, авторы, …);
  • тренды в динамике тем сообщений;

Управление знаниями:

  • извлечение различных типов сущностей (персоны, компании, даты, бренды и др.) и выявление отношений между ними. Разрешение кореферентных и анафорических упоминаний сущностей на их полное название. Подробнее о лингвистике системы читайте здесь;
  • редактирование «на лету» пользователями структуры синсетов с синхронным изменением всех результатов работы системы, включая семантический поиск. Эта уникальная возможность позволяет аналитику самостоятельно формировать и использовать свое понятийное пространство на основе включения в название темы или объекта их различных наименований, встретившихся в тексте;
  • управление тезаурусами системы.

    • Архитектура программного комплекса

      Система может функционировать в современных центрах обработки данных, предоставляющих услуги облачных вычислений. Серверная часть приложения реализована на платформе Microsoft .NET, имеет архитектуру взаимодействующих сервисов и предоставляет услуги клиентским приложениям через веб-интерфейс. Часть прикладных функций выполняется на клиентских компьютерах, за счет чего повышена производительность сервера приложений.

      Отказоустойчивое хранилище документов системы – масштабируемая, конфигурируемая «на лету», распределенная среда хранения контента документов, полнотекстового и атрибутивного индексов, семантического представления документов (знаний) и семантического индекса. Имеет программный интерфейс для взаимодействия с клиентами. Ориентировано на использование в проектах типа Big Data. Выполнено с использованием различных программных платформ для достижения максимального соотношения «цена-качество-развитие». В нем может храниться практически неограниченный объем документов без деградации производительности. Оптимизирует производительность за счет распределенного кэширования больших объемов данных в оперативной памяти серверов, реализуя современный тренд Сash Memory DBMS, а также путем балансировки нагрузки на серверах. Предусмотрено горизонтальное и вертикальное масштабирование линейки серверов. Реализовано зеркалирование данных хранилища.

      Одной из важных подсистем продукта также является подсистема автоматического мониторинга работоспособности программно-аппаратного комплекса, созданная на  Open Source платформе. 


      Конкурентные преимущества

      «Аналитический курьер» является инструментом аналитической разведки, а не только средством формирования отчетов. Особенностью системы является совместное применение различных инструментов аналитической обработки в одном сценарии. В системе реализованы уникальные по качеству методы анализа мнений и определения тональности публикаций. 

      В «Аналитическом курьере» впервые создана технология  семантического агрегирования в реальном масштабе времени всех результатов работы. Впервые пользователи могут в системе создавать и редактировать знания о своих предметных областях, которые сразу отражаются во всех результатах работы. Это создает основу для создания профессиональной поисковой системы, объединяющей знания всех ее пользователей.

      К преимуществам системы «Аналитический курьер» можно отнести также следующие ее качества:

      • большая по сравнению с полнотекстовым скорость поиска информации на естественном языке, поиска похожих документов и поиска с использованием тезаурусов. При этом качество результатов поиска также значительно выше.
      • автоматическое, либо пользователями "на лету" объединение похожих тем документов в группу синонимов - синсет. Например, несколько разных названий одного объекта в документах: "премьер Д.А.Медведев", "премьер-министр России Медведев", объединятся в одно наиболее полное значение – доминанту синсета, например, "премьер-министр России Д.А.Медведев". Все темы в результатах работы системы агрегируются до доминант синсетов: категории в кластерах и онтологиях содержат только доминанты, также как: ключевые темы и темы на семантических картах, значения категорий в частотных распределениях, темы рефератов и др.
      • Выделение тонально окрашенных предложений с выделенными объектами (к которым относится тональность) и субъектом высказывания (кто произвел оценку тональности). Получение ЧР высказываний, а не только ЧР документов. Фрагмент отчета с тонально окрашенными высказываниями приведен ниже.

      • построение результатов аналитической обработки в режиме онлайн для найденных по запросу документов, практически независимо от их количества. В подавляющем большинстве случаев система обеспечивает получение результата в течение нескольких секунд при большом количестве активных пользователей. Так, при построении совместного частотного распределения (ЧР) связей тем в документах для 20 млн. релевантных документов время его построения и возврата 1000 наиболее частотных элементов составляет около 20 сек. При этом ЧР содержит около 1 млрд. заполненных ячеек. 


    Демонстрационные ролики

    На видеохостинге YouTube размещены видеоролики (Часть 1, Часть 2, Часть 3, Часть 4), демонстрирующие базовые возможности системы «Аналитический курьер».

    Часть 1

    Видеоролик содержит следующую информацию:

    • общая информация о системе;
    • модели поиска документов;
    • обзор инструментов для аналитической обработки документов,

    демонстрирует инструменты:

    • тематический профиль коллекции документов;
    • кластерную карту;
    • семантическую карту тем.

    Часть 2

    Видеоролик демонстрирует инструменты для аналитической обработки документов:

    • список тональных высказываний, найденных в документах;
    • частотное распределение документов;
    • отображение на карте географических объектов, найденных в документах.

    Часть 3

    Видеоролик демонстрирует инструменты для аналитической обработки документов:

    • социальный граф;
    • тематический рубрикатор;
    • информационные панели,

    а также порядок формирования  отчетов.

    Часть 4

    Видеоролик содержит дополнительные сведения о возможностях системы:

    • описание семантических типов тем;
    • настройка параметров работы пользователя;
    • функции администрирования системы;
    • встроенная справка,

    а также информацию о динамике развития системы.



    Области применения Системы

    • Мониторинг сегментов рынка

    Мониторинг законотворческих инициатив.  Выявление регуляторных изменений по ключевым направлениям сегмента рынка, таким как, промышленная безопасность, антимонопольное регулирование, экологическое регулирование, техническое регулирование, налогообложение и т.д. Выполняется с помощью установленных пользователем уведомлений о  важнейших событиях в этой области.

    • Анализ имиджа публичных персон

    Мониторинг информации об  объектах, определение тональности высказываний, анализ связей объектов. Мониторинг информационного фона в отношении объекта (выявление ассоциированных тем, персон, юридических лиц, источников информационных компаний), его динамики.

    • Конкурентный анализ компаний

    Мониторинг основных рисков, лояльности в отношении ключевых компаний с использованием источников сети Интернет.

    • Подразделения маркетинга предприятий (анализ рынка лекарств, изделий, услуг)

    Мониторинг на сайтах отзывов субъектов рынка на качество товаров, услуг. Мониторинг информации об  объектах, определение тональности высказываний, анализ связей объектов. Мониторинг информационного фона (общественного, конкурентов) в отношении компании, проблемы (основные темы, персоны, участники, источники).

    • Страховые компании, кредитные организации

    Анализ кредитоспособности клиента, выявление недобросовестных страхователей, их связей, выявление рисков с использованием информации из сообщений об объектах и их профилей в соцмедиа. Автоматическое формирование отчетов о состоянии клиентов.

    • Специальные службы, правоохранительные органы

    Мониторинг событий, объектов, проблем и анализ связей объектов.

    • Проблемная область Заказчика

    Настройка системы Заказчиком на задачи его пользователей.


    Оказание информационных услуг с использованием «облака»

    Мониторинг событий, объектов и проблем можно выполнять с использованием системы, развернутой в «облаке» на ЦОД компании. Пользователь имеет возможность самостоятельно определять состав источников в сети Интернет, либо определять тематику загружаемых документов. Ежедневно «в облако» загружается несколько миллионов сообщений из наиболее рейтинговых источников.


    Программные продукты

    Для создания собственных приложений мы предлагаем приобрести программные компоненты и сервисы для сбора, обработки и анализа текстовой информации. Все программные продукты имеют API (Application Programming Interface), что облегчает их интеграцию в программные решения. На 1.07.2015 года доступны программные продукты следующих направлений:

    • компоненты мониторинга источников сети Интернет;
    • компоненты лингвистической обработки текста;
    • хранилище документов на платформе Big Data;
    • компоненты Text Mining.

    Более подробно с программными продуктами Вы можете ознакомиться здесь.

    Отправить запрос на получение информации: ak@i-teco.ru


    Родственные продукты

    "X-Files" - система формирования и анализа досье на объекты мониторинга  





    • Документация, содержащая описание функциональных характеристик программного обеспечения — скачать документ (pdf)
    • Информация, необходимая для установки и эксплуатации программного обеспечения: