ВЕДУЩИЙ РОССИЙСКИЙ СИСТЕМНЫЙ ИНТЕГРАТОР

Основные технологические и рыночные тренды

Текстовая аналитика (TA) достигла наибольшего успеха в четырех сферах: потребительский сектор, государственное и местное управление, естествознание и клиническая медицина, а также научно-технические исследования.

Текстовая аналитика (TA) достигла наибольшего успеха в четырех сферах: потребительский сектор, государственное и местное управление, естествознание и клиническая медицина, а также научно-технические исследования. Прежде всего вызывает интерес анализ интернет-новостей, сообщений в социальных сетях и обратной связи клиентов. Поисковые приложения — поиск, реклама, исследования, работа с клиентами — это тот базовый функционал, который направлен на удовлетворение запросов фронт-офисов и функциональных подразделений.

TA становится значительной частью рынка систем поиска и аналитики. Растёт спрос на автоматический анализ естественного языка для применения в различных приложениях, начиная с корпоративных поисковых систем, систем мониторинга социальных медиа, услуг «виртуальных помощников», например, в Интернет магазинах и Call центрах, и заканчивая системами обучения, системами комплексного анализа данных: ситуационного анализа, поддержки принятия решений и др.

У потребителей растёт интерес к автоматизированной идентификации тематик, сущностей и концептов, событий и характеристик персон в сочетании с анализом цели и тональности — отношения, эмоций и оценок, а также другой субъективной информации об объектах и их атрибутах. В 2013 году также появился новый сегмент рынка приложений и технологий, основанных на искусственном интеллекте, машинном обучении и когнитивных вычислениях, которые используют неструктурированные данные и информацию.

В 2014 году рынок еще значительнее фрагментируется на программные средства, сервисы обработки естественного языка (NLP), средства ТА, системы социальной аналитики, интегрированные среды анализа данных, а также технологии, интегрированные в другие приложения.

Ниже приведены некоторые выводы, полученные из обзора рынка, проведённого корпорацией Альта-Плана (Alta Plana Corp.) в 2014 году.

Социальные медиа остаются на сегодняшний день самым популярным источником идей для проектов текстовой аналитики. Основные категории онлайн/социальных источников информации (в отличие от корпоративных):

  • блоги и другие социальные медиа (61%)
  • новостные статьи (42%)
  • комментарии в блогах и к новостным статьям (38%)
  • интернет-форумы (36%).

Главные пять функций, которые пользователи ожидают от приложений, связанных с обработкой информации из источников:

  • способность генерировать категории или таксономии (64% респондентов)
  • возможность использования словарей, таксономий, онтологий или правил извлечения информации (54%)
  • широкие возможности извлечения информации (53%)
  • классификация документов (53%)
  • глубокий анализ тональности / эмоций / оценок (45%).

Есть ряд технологических факторов, положительно влияющих на рост рынка ТА:

  • качественные системы анализа текста (поиска и доставки информационных ресурсов, извлечения информации, классификации и анализа контента) с открытым исходным кодом. К ним относятся такие системы как UIMA, GATE, Python и R;
  • Hadoop, MongoDB, RIAK и другие технологии параллельной обработки данных;
  • системы обработки потоковых данных и графов, например, с помощью Apache Spark и Apache Storm.
  • экономичные API — появились веб-сервисы, установленные на хостингах, с доступом по запросу, они обеспечивают необходимую гибкость для пользователей.
  • доступность данных, например, полученных с помощью таких сервисов, как DataSift, Gnip, Moreover и Xignite, создает спрос на аналитику.
  • объединение различных технологий будет способствовать всё большей автоматизации интернет-торговли, служб поддержки пользователей, системы здравоохранения и других сфер деятельности.

Мировые тренды. 2013 был успешным годом для рынка поиска и анализа контента: в течение этого года рынок рос со скоростью 13,2%, в то время как в 2012 году рынок вырос всего на 6,4%. Рост 2013 года привёл к тому, что общая выручка за лицензии на программное обеспечение достигла 3,1 млрд. долларов за год у таких поставщиков, как Palantir, IBM, и Recommind. Продолжаются высокие темпы роста на рынке ТА и подсегменте доступа к агрегированной информации. IDC полагает, что рост на рынке поиска контента и аналитики в период 2014-2018 ожидается, в среднем, 10,5%.