ВЕДУЩИЙ РОССИЙСКИЙ СИСТЕМНЫЙ ИНТЕГРАТОР

В облаке Больших Данных

Источник: журнал «Директор информационной службы», №2/2014
Дата публикации: февраль 2014
17.02.2014

Главное в технологиях Больших Данных — ясно определить выгоду для бизнеса от их использования и реализовать проект в условиях практически полного отсутствия аналогичного опыта в России.

Как показывает опыт различных организаций, основной проблемой при использовании технологий Больших Данных остается извлечение из них пользы для бизнеса. Масштабы затрат и организационно-технические проблемы уходят на второй план. Сегодня нужны новые подходы к формулировке и решению прикладных задач, для которых требуются такого рода данные.

Объем и разнообразие данных продолжают интенсивно расти, одновременно увеличиваются требования к скорости их обработки — эти тенденции сомнений не вызывают. С 2008 года закрепилось название «Большие Данные». До последнего времени они трактовались в первую очередь как некие явления, происходящие в мире технологий, и, что вполне закономерно, оказали заметное влияние на ИТ-сектор. Об этом свидетельствуют, например, выступления и дискуссии на форумах Big Data, которые проводит издательство «Открытые системы».

Сегодня фокус дискуссий постепенно смещается от анализа возможностей технологических решений к обсуждению различных методологических вопросов, поскольку без их решения едва ли получится исключить необоснованные затраты и уменьшить риск снижения качества  принимаемых решений относительно внедрения и использования технологий Больших Данных.

Финансы, телеком и розница

Количество данных растет во всех отраслях, однако потребность в их быстрой и всеобъемлющей обработке неодинакова.

Слава Лазебников, вице-президент компании EPAM Systems по технологическим решениям, считает, что технологии Больших Данных актуальны практически для любого сегмента рынка. Объем данных растет экспоненциально, и любая компания рано или поздно столкнется с влиянием этого фактора. Наиболее заметны такие явления в финансовом сегменте, телекоммуникационной отрасли, сфере электронной коммерции, розничной торговле, нефтегазовом секторе, а также в компаниях, чей бизнес связан с Интернетом.

Уже сейчас есть отрасли, где ценность от реализации больших проектов велика, эффект виден почти сразу и затраты на проект окупаются быстро, отмечает Сергей Нестеренко, руководитель отделения интеграции данных дивизиона данных компании IBS. Среди таких отраслей — телекоммуникационная. Так, использование сетей 4G (в России они основаны на стандарте LTE) порождает огромный объем трафика. Чтобы его анализировать с помощью, например, технологии накопления статистических данных, проверки и фильтрации сетевых пакетов по их содержимому (deep packet inspection), необходимы новые инструменты. Результаты анализа способны повлиять на добавленную стоимость продукта, адресованного конечному потребителю, поясняет Нестеренко. Освоение телекоммуникационной компанией технологий Больших Данных является бесспорным конкурентным преимуществом, позволяющим автоматически создавать адресное предложение для конкретного потребителя, комплексное и своевременное.

По наблюдениям Нестеренко, подобная ситуация наблюдается и в банковской сфере: появляется все больше данных, связанных с отдельными потребителями финансовых услуг. На основе анализа таких данных легко оценить динамику и тенденции изменений потребностей и настроений клиентов. Это важно, поскольку банковские клиенты становятся все более требовательными — они хотят получать предложения, адресованные именно им. Чтобы обеспечить персонализированный подход к клиенту, необходимы инвестиции как в хранилища данных (инфраструктуру), так и в методы обработки этой информации и доступа к ней.

Пионерами в создании и использовании Больших Данных выступили некоторые государственные структуры, отмечает Илья Киселев, руководитель направления Big Data компании «Ай-Теко». Они собрали и продолжают накапливать огромные массивы данных (в первую очередь в целях обеспечения безопасности). Для госорганов оптимизация использования этих массивов чрезвычайно актуальна. В авангарде применения технологий Больших Данных также идут финансовая, телекоммуникационная отрасли и интернет-компании. Связано это прежде всего с тем, что в таких отраслях ИТ-составляющая является одним из ключевых активов бизнеса. Кроме того, операции в этих сегментах рынка в силу технических и организационных причин порождают большой поток данных, поэтому их анализ может существенно увеличить добавленную ценность. Помимо перечисленных отраслей, большого эффекта от применения технологий Больших Данных, считает Киселев, можно ожидать в розничной торговле и в тех видах бизнеса, которые основаны на логистике.

Анна Харитонова, начальник отдела бизнес-анализа центра программных решений компании «Инфосистемы Джет», отмечает, что среди отечественных компаний технологии Больших Данных наиболее востребованы там, где есть большой объем клиентских данных. Поэтому, наверное, как и во всем мире, здесь лидируют банки, торговые розничные организации и  телекоммуникационные операторы. В розничных компаниях актуален анализ чеков, в банках — анализ транзакций, на предприятиях телекома — анализ записей для биллинговой системы (Call Detail Record, CDR). Таким образом, это актуально везде, где бизнес хочет как можно лучше понимать своих клиентов, привлекать новых, повышать качество обслуживания. Возможно, потому одна из самых распространенных задач, для решения которой могут пригодиться технологии Больших Данных (причем независимо от отрасли), — это повышение эффективности маркетинговых акций.

Инфраструктурный барьер

Необходимость вкладывать значительные средства в инфраструктуру при внедрении технологий Больших Данных создает высокий барьер на пути вхождения в эту область. Некоторые надежды на его снижение связаны с облачными вычислениями. Так, сейчас немалое число соответствующих проектов реализуются на облачных технологиях, считает Лазебников.

Есть сервисы (к примеру, у Amazon), которые позволяют эффективно выстраивать сбор, хранение и обработку данных, причем с высокой скоростью. «Не всегда с финансовой точки зрения использование облаков оказывается для компании более выгодным, чем использование традиционной инфраструктуры, — отмечает Лазебников. — Но в ряде случаев проекты Больших Данных вполне успешно реализуются в облаках».

При обращении к технологиям Больших Данных хороший результат дает эволюционный подход, добавляет Лазебников. При интеграции новой платформы для работы с Большими Данными в текущую ИТ-инфраструктуру он рекомендует двигаться небольшими шагами, контролировать риски и не стремиться одним разом заменить все существующие технологии. Лучше поэтапно добавлять в ИТ-инфраструктуру новые компоненты и затем постепенно переключаться на их использование, отказываясь от ставших ненужными средств и систем.

Несмотря на то, что технологии Больших Данных и облачные вычисления развиваются одновременно, прямой связи между ними нет, считает Сергей Заблодский, директор департамента корпоративных решений дивизиона данных компании IBS. Концепция облачных вычислений возникла несколько раньше и в основном относится к сфере инфраструктуры. Концепция Больших Данных в большей степени относится к аналитическим задачам. Связаны они между собой косвенно: облачные сервисы — это более дешевый и удобный способ реализации проектов, для которых нужны большие вычислительные мощности. Другими словами, облачные вычисления — это способ предоставления аналитических возможностей как сервиса потребителям, которые заинтересованы в результатах анализа Больших Данных.

Характер трансформации ИТ-инфраструктуры при переходе к технологиям Больших Данных, отмечает Заблодский, зависит от того, как именно компания собирается работать с Большими Данными. Первый вариант: компания принимает решение о том, что она самостоятельно будет накапливать все данные, которые имеет возможность получить.

Для этого ей придется обзавестись дешевыми накопителями необходимой емкости — возможно, не очень быстрыми. Данный вариант предполагает размещение соответствующего оборудования и затраты на энергопотребление и обслуживание. Это достаточно типичные инфраструктурные задачи, решаемые ИТ-службами повсеместно. Второй вариант: компания может отдать работы по накоплению и хранению Больших Данных на аутсорсинг — например, в какой-либо ЦОД, который может предоставлять организации-заказчику доступ к этим данным напрямую либо посредством облачных технологий. В этом случае закупать и размещать собственное оборудование не придется. Однако остается другой вопрос — обработка накопленных данных: выбор технологии для нее будет зависеть от профиля организации и спектра актуальных бизнес-задач, считает Заблодский. Возможно, отмечает он, для реализации проекта Больших Данных достаточно будет средней производительности оборудования. Часто у компании есть оборудование, которое утратило свою актуальность для решения каких-то операционных задач, тем не менее оно вполне подходит для организации Hadoop-кластера.

Киселев считает, что технологии Больших Данных неразрывно связаны с облачными вычислениями. Для сбора больших массивов разнородных данных и их анализа требуются весьма значительные мощности. Не все компании могут себе позволить строить собственные ЦОД для решения аналитических задач, к тому же сегодня нет необходимости создавать собственную инфраструктуру и повторно собирать уже накопленные кем-то данные, достаточно обратиться к одним поставщикам облачных услуг за данными, а к другим — за вычислительными мощностями и инструментарием для их анализа. В частности, активно развивается рынок «сырых» данных, которые можно использовать для анализа. Так, исландская компания DataMarket предлагает свободный доступ к наборам данных других организаций, например Всемирного банка, Евростата, ООН. Свой доход компания получает в результате перепродажи данных от коммерческих поставщиков. Windows Azure DataMarket компании Microsoft выступает в качестве аналогичной площадки для перепродажи наборов данных от сторонних компаний. В целом, отмечает Киселев, ценность рыночных предложений тех, кто управляет данными с использованием облачных вычислений, растет.

Основной риск — новизна задачи

По мнению Заблодского, при обращении к технологиям Больших Данных самый главный риск заключается в том, что данная концепция в том виде, в каком она сейчас обсуждается, достаточно новая. Впрочем, отмечает он, то, что сейчас принято называть Большими Данными, существует уже достаточно давно и методологии их обработки нарабатывались годами. Новизна состоит в том, что большинство компаний и их ИТ-директоров никогда раньше не пытались использовать эти технологии в интересах своего бизнеса. Как любая новая задача, она таит в себе риски не учесть факторы, способные критичным образом повлиять либо на достижимость результата, либо на его качество.

Во многих организациях, к сожалению, отсутствует ясное понимание того, чем эти технологии могут быть полезны их бизнесу. «Большие Данные не панацея, — отмечает Заблодский. — Прежде чем приступать к подобным проектам, нужно четко понимать, какого результата хотите достичь и насколько этот результат в принципе достижим». К счастью, есть опыт компаний, которые уже прошли этот путь, говорит он. Не всеми он был пройден абсолютно успешно. Некоторые получили от проектов Больших Данных дополнительное преимущество. Но есть и компании, которые, начав подобный проект, остановили его, разочаровавшись либо в сроках получения результатов, либо в самих результатах, пусть даже промежуточных.

Основные риски проектов Больших Данных связаны с тем, что это не проекты из серии «сделай сам», считает Лазебников. Большие Данные подразумевают целый комплекс технологий, средств и решений. Его интеграция в живую ткань компании, в ее структуру и бизнес требует опыта и хорошего понимания сути задачи. Если внутри ИТ-команды подобных компетенций и экспертизы нет, то лучше не действовать в стиле «главное начать, а дальше разберемся». Риски будут ниже, если перед стартом проекта нанять в штат профессиональных экспертов по Большим Данным или пригласить для его реализации внешнюю компанию-консультанта с соответствующим опытом.

По словам Харитоновой, на пути к внедрению технологий Больших Данных их потребителей ожидают серьезные риски. На сегодняшний день нет даже единого понимания того, какие объемы данных и технологии относятся к разряду Больших Данных, поэтому вряд ли стоит рассчитывать на использование аналогичного опыта. Пока каждый новый проект — это своеобразный эксперимент. Если же говорить о целях использования данной технологии, то, как и в случае с любым другим видом анализа данных, одним из основных рисков можно считать недоверие бизнеса к полученным результатам и, как следствие, непонимание им ценности внедрения этой технологии.

Киселев считает, что на пути внедрения технологий Больших Данных есть два существенных риска. Первый — риск, связанный с обоснованием ROI и других показателей экономической  эффективности решений. Сегодня нет устоявшегося подхода к оценке окупаемости ИТ-проектов вообще и, в частности, нет ясного понимания ценности, которую способны обеспечить проекты, связанные с Большими Данными.

Второй существенный риск — риск недостижения заявленных результатов проектов Больших Данных. Эта новая область знаний требует разработки и использования сложных математических моделей. При этом, отмечает Киселев, зачастую каждый проект уникален и предыдущий опыт (в частности, разработанные и использованные ранее модели) нередко не годится для решения новой или даже переформулированной задачи, которая решалась на другом предприятии. Впрочем, эти риски, по мнению Киселева, не являются отличительной особенностью проектов Больших Данных — они сопутствуют всем ИТ-проектам.

От Больших Данных к необходимым данным

Татьяна Лякишева, директор направления аналитических решений дивизиона данных компании IBS, отмечает, что в результате анализа больших массивов данных должно остаться лишь небольшое их количество, необходимое для принятия решений. Но эти данные должны обладать очень большой ценностью. Лякишева приводит пример «обогащения» профиля клиента на основании данных из социальных сетей. Подключая данные социальной сети, то есть ассоциируя профиль клиента (например, клиента банка) с его профилем в социальной сети, организация получает доступ к огромному количеству информации о человеке и его партнерах по коммуникациям. Также из созданного контента мы можем узнать, чем он интересуется, проанализировать специфику его речи. Из всех подобных данных (а это массив огромного объема) может быть извлечено всего несколько аналитических атрибутов для профиля клиента, которые впоследствии могут быть использованы в разных целях, говорит Лякишева. Например, в модели кредитного скоринга эти данные могут применяться для формирования очередного привлекательного предложения клиенту.

Похожая ситуация с объемом данных и в других отраслях экономики — например, в промышленности при принятии решений о техническом обслуживании и ремонте оборудования, когда данные с контрольных датчиков должны быть проанализированы на лету, но из них могут быть в результате извлечены всего несколько статистических показателей, на основании которых можно прогнозировать вероятность отказа оборудования.

Для принятия решений человеку требуется достаточно небольшой объем информации, отмечает Лякишева. Например, при принятии стратегических решений руководитель видит распределение прибыли по основным секторам и тренды развития значений показателей, которые выводит ему информационная система. Это «сухой остаток» того, что было проанализировано, извлечено и подготовлено машиной.

По мнению Лазебникова, наличие достаточного количества данных может заменить — и во многих случаях заменяет — недостаток теории: «В конце концов, не так важно, почему какой-то человек регулярно приходит в наш магазин за молоком и пивом. Возможно, жена попросила его покупать молоко, а он пользуется этим, чтобы приобрести еще и пиво. Может, есть какие-то другие причины. Важно, что если при анализе потребительской корзины мы зафиксировали сам факт таких покупок, то дальше можем принимать его в расчет при разработке нашей маркетинговой стратегии или рекламной кампании». В любом случае всегда должен быть кто-то, кто подумает, на какие вопросы следует искать ответы с помощью Больших Данных, как интерпретировать полученные результаты и как затем их использовать.

Обсуждая роль аналитика в анализе данных, Киселев отмечает, что количество данных и источники определяет аналитик в зависимости от поставленной задачи. Как правило, говорит он, в проектах Больших Данных аналитики и специалисты по ИТ-инструментарию работают в тесной связке и ни одна сторона не сможет решить задачу в одиночку. Аналитики уточняют задачи и строят модели, они своего рода промежуточный слой, который переводит задачу бизнеса в представление для информационных систем.

Итак, более или менее очевидно, что инфраструктурный барьер вхождения в данную область может быть снижен за счет облачных решений. Однако издержки пока что высоки. Главных проблем две. Во-первых, нужно определить, в чем состоят выгоды для бизнеса от данных решений, и, что еще важнее, объяснить их бизнесу. Во-вторых, реализовывать проект придется при практически полном отсутствии опыта других организаций, поэтому опираться придется только на свою интуицию.

Пресс-центр
«Ай-Теко» в фокусе
Загрузки и ссылки
Пресс-служба на связи
Также Вы можете перезвонить нам
по тел.: +7 (495) 777-10-95