ВЕДУЩИЙ РОССИЙСКИЙ СИСТЕМНЫЙ ИНТЕГРАТОР

АК. Big Data

Платформа для надежного хранилища миллиардов записей большого размера и различной структуры

Платформа для хранилища большого количества записей большого размера и различной структуры

В первую очередь наша платформа предназначена для хранения медиа данных, журналов работы систем, журналов компьютерных инцидентов, журналов банковских операций и сообщений, загружаемых из социальных медиа.
Плотность потока загружаемых данных оценивается 200 Тб/сутки, при максимальном размере записи до 50Тб и количестве загружаемых записей до 100 млн./сутки.
Хранилища на платформе АК. Big Data создаются и эксплуатируются в течение 4 лет. Накоплен большой опыт по эффективной эксплуатации таких хранилищ.
В АК. Big data использованы только Open Source компоненты и собственные разработки компании.


Платформа хранения «больших данных»

В состав решения входит два основных компонента: (а) компонент хранения большого объема данных; (б) компонент поиска и аналитической обработки информации.

Хранение данных
Компонент хранения данных представляет собой распределенное key-value хранилище, позволяющее объединять в кластер сотни серийных серверов и обеспечивать заданные избыточность (надежность) хранения данных и производительность обработки запросов. При этом компонент хранения обеспечивает:

Высокая доступность
Организацию кластера без управляющих узлов, что совместно с механизмом автоматической репликации данных обеспечивают постоянную доступность информации.

Масштабируемость
Пошаговое наращивание вычислительных ресурсов путем добавления новых серверов в кластер, что приводит к линейному росту общей производительности кластера. При добавлении новых вычислительных ресурсов не требуется вмешательство администратора – перераспределение данных выполняется автоматически.

Простота управления
Данные размещаются равномерно по всем машинам кластера, поэтому при добавлении новых узлов нет необходимости задавать правила распределения данных по новым машинам – система выполняет перераспределение данных автоматически.

Отказоустойчивость
Настройка степени избыточности хранения данных позволяет обеспечить требуемые параметры надежности хранилища. После замены вышедших из строя серверов система выполняет обратное перераспределение данных, совершенно прозрачное для пользователей системы.

Структура записей
Хранилище может выполнять хранение как небольших документов (несколько десятков мегабайт), так и записей, содержащих большие объемы двоичных данных (десятки терабайт). Перечисленные выше преимущества платформы справедливы при хранении любого типа данных. Избыточность хранения данных может быть указана независимо для каждого типа хранимой информации.

Обработка и поиск информации
Хранилище предоставляет несколько видов программных интерфейсов доступа к данным. В том числе и доступ к данным с использованием протокола REST.
Компонент аналитической обработки и поиска позволяет выполнять анализ хранимой информации как средствами технологии Map/Reduce, так и средствами атрибутивного/полнотекстового поиска (при разрешенной индексации хранимых данных). В этом случае поисковый индекс также имеет распределенную структуру и имеет средства для надежного хранения.


Используемое внешнее программное обеспечение

Решение построено на базе open source продуктов:

  • Распределенное хранилище данных — RIAK KV + RIAK S2 или APACHE Hadoop.
  • Индексация — APACHE SOLR.
  • Аналитическая обработка — APACHE SPARK.


Пример архитектуры хранилища для хранения медиа данных

Ниже представлена архитектура хранилища медиа данных, примененная в одном крупном проекте. Оно построено с использованием продукта RIAK, достоинством которого является относительная простота администрирования и большая надежность.
Масштабирование хранилища медиа контента выполняется добавлением новых кластеров (каждый кластер медиа контента представляет собой серверную стойку. При подключении дополнительной стойки добавляется ~200Тб полезного пространства). Масштабирование хранилища метаданных выполняется добавлением отдельных серверов в кластер метаданных.

akbd_scheme.png


Технические параметры комплекса

 Количество записей в хранилище (млрд.)

 1

 Коэффициент резервирования данных

 3

 Количество кластеров хранилища медиа контента

 2

 Полезный объем данных хранилища медиа контента (Тб)

 288

 Объем дискового пространства медиа контента (Тб)

 864

 Объем дискового пространства для метаданных и поискового индекса (Тб)

 10