ВЕДУЩИЙ РОССИЙСКИЙ СИСТЕМНЫЙ ИНТЕГРАТОР

Проблемы современных методов анализа текста

Text Analytics (TA) применяется к данным из корпоративных источников, социальных медиа или сайтов Интернет. Важным источником текста являются графические, видео- и речевые объекты внутри сообщений.

Text Analytics (TA) применяется к данным из корпоративных источников, социальных медиа или сайтов Интернет. Важным источником текста являются графические, видео- и речевые объекты внутри сообщений. Особенностью ТА является необходимость обрабатывать текст на различных языках.

Эта область технологий позволяет извлекать информацию (знания) для генерации полезных идей для общества, бизнеса и государства. Спрос на осмысление естественного языка растет в приложениях, начиная от корпоративного поиска и мониторинга социальных медиа до когнитивных приложений и систем поддержки принятия решений. Для удовлетворения этого спроса активно создаются новые методы и инструменты ТА в направлениях: Natural Language Processing, Text Mining, социологический анализ авторов сообщений, социальный граф связей, ... Развивается общая модель описания семантики текста OWL 2 в проекте Semantic Web консорциума W3C.

TA используется там, где необходима быстрая обработка большого объема текста. Хотя не все приложения обрабатывают только текст, но при наличии общего пространства «больших данных», аналитическая задача, обрабатывающая транзакционные записи, может быть дополнена результатами обработки текста в качестве дополнительного источника.

Актуальность проблемы подтверждается исследованием компании International Data Corporation (июнь 2014г.), подчеркивающим ценность унифицированных технологий поиска и аналитики в оказании помощи организациям в управлении знаниями и информационном поиске. Отчет «The Knowledge Quotient: Unlocking the Hidden Value of Information Using Search & Content Analytics» сочетает исследования на основе инцидентов с результатами опроса 2155 работников умственного труда из организаций частного и государственного секторов. Отчет содержит реальные примеры работы ведущих организаций, успешно преодолевающих проблемы управления знаниями в эпоху больших данных. В нем обсуждается влияние резкого роста объема неструктурированных данных на производительность работника знаний (аналитика) и приведены краткие исследования организаций, инвестирующих в технологии, выявляющие сущность этих данных. Некоторыми ключевыми выводами доклада являются:

  • 61% работников умственного труда регулярно используют не менее 4 систем, чтобы получить информацию, необходимую им для выполнения своей работы, и 13% используют 11 или более систем.
  • 36% рабочего времени типичного работника знаний тратится на поиск и консолидацию информации, размещенной в различных системах.
  • Только 56% времени тратится на поиск полезной информации, необходимой для выполнения их работы.
  • 44% времени работники не могут найти полезную информацию. Это показывает четкую необходимость широкого использования систем управления знаниями, которые используют интеллект методов Text Mining.

Воздействие этих проблем на сотрудников организации может быть значительным. В отчете отмечается, что предприятие с 1000 работниками умственного труда теряет, в среднем, $5,7 млн в год за счет потерь производительности сотрудников, не находящих соответствующую информацию.

Многие организации ведут борьбу за интеграцию разнообразных потоков знаний и их полезного использования. Чтобы использовать скрытые знания, заключенные в контенте, инновационные организации внедряют технологии, которые виртуально объединяют их разнообразную структурированную и неструктурированную информацию, и делают ее доступной и необходимой для работников умственного труда.

Проблема состоит в востребованности современных методов и программных компонентов текстовой аналитики, эффективно работающих с Big Data хранилищами данных. Наличие таких компонентов позволит выполнять совместный анализ данных различных типов для поддержки процессов принятия решений.

Ее решение позволит также создать современную распределенную информационную систему, отвечающую оптимальным требованиям по производительности, надежности, горизонтальной и вертикальной масштабируемости, целостности данных и стоимости.