Системы хранения в контексте BIG DATA
Источник: журнал CIO №9
Согласно недавнему аналитическому исследованию IDC, 41% западных компаний испытывает трудности в связи с чрезвычайно быстрым ростом общего объема информации, и он будет все более ускоряться. «Большие данные» требуют новых подходов к хранению и управлению. По разным оценкам, прирост объемов информации составляет от 50 до 70 процентов в год. Аналитики IDC ожидают, что объем используемых данных в глобальном масштабе возрастет к 2020 году в 44 раза до 35 зеттабайт. В значительной степени рост этот происходит за счет лавинообразного увеличения объемов неструктурированной информации.
Шесть источников
С развитием технологий и всеобщей информатизацией изменились не только объемы потребляемой информации — изменились типы данных, которые хранят у себя предприятия.
Александр Гладкий, руководитель отдела вычислительных платформ и систем хранения IBS Platformix, выделяет шесть основных типов источников данных.
1. Цифровые фото- и видеокамеры, смартфоны: мультимедийный контент с этих устройств оседает на дисках ПК и серверов, в блогах и на других интернет-ресурсах. Пользователи хранят в цифровом виде музыку и фильмы.
2. Возросшие скорости Интернета стимулируют пользователей обмениваться письмами и вложениями большего размера, а доступность ресурсов (в том числе бесплатных) позволяет хранить целые почтовые архивы.
3. К цифровому формату переходят разработка и проектирование в самых различных отраслях промышленности, аналоговые архивы оцифровывают для удобства использования и лучшей сохранности. Электронные архивы создают даже организации финансового сектора, страховые компании и государственные учреждения, стремящиеся повысить доступность и надежность данных.
4. Все больше приборов ориентировано на отображение информации в цифровом виде: например, в медицине это томографы, аппараты УЗИ.
5. Информация представляет все возрастающую ценность для компаний, поэтому ее реплицируют и клонируют, создают и хранят множество резервных копий.
6. Организации все реже удаляют неактуальную информацию, предпочитая ее архивировать. Постоянно растущие в объемах данные хранят и накапливают с целью анализа тенденций.
По мнению Геннадия Бородина, эксперта подразделения технологических решений Hitachi Data Systems, проблематика интенсивного прироста данных актуальна прежде всего для медийных компаний, которые хранят громадное количество видео- и аудиоматериалов и другого аналогичного «тяжеловесного» контента. Бородин считает, что в значительной степени технологии работы с большими объемами данных будут также востребованы в банковской и страховой сфере, поскольку именно там существует необходимость хранить всю первичную документацию в отсканированной форме.
«Высокую потребность в технологиях хранения и обработки больших объемов неструктурированных данных мы видим на российском рынке со стороны компаний или подразделений, обеспечивающих безопасность, — отмечает Геннадий. — Например, во многих городах реализуется проект „безопасный город": устанавливается множество видеокамер, информация с которых постоянно записывается и собирается».
Новый виток
Для изменений, происходящих в области увеличения данных, специалисты уже придумали термин Big Data, указывающий на то, что в области хранения и управления данных должен произойти качественный скачок.
Термин этот, по мнению Геннадия Бородина, в большей степени относится к области структурирования уже имеющихся технологий и адаптации их к концепции растущих данных.
— Не хотелось бы делать прогнозов в стиле «научной фантастики», но думаю, что в ближайшее время ожидать каких-то радикальных технологических прорывов не стоит, — говорит Бородин. — Возможный вектор развития в рамках концепции Big Data видится в направлении усовершенствования и оптимизации алгоритмов поиска. Концепция Big Data работает в первую очередь там, где большие объемы неструктурированных данных, которые порой трудно «привести в порядок» в рамках какой-либо структурной иерархии. В этом случае ничего не остается, кроме как планировать новые принципы работы с промежуточным буфером запросов и искать новые механизмы для распараллеливания и «разнесения» пулов хранения данных и индексов обращений к ним. Такие механизмы, например, на текущий момент реализованы в решении Hitachi Content Platform. Возможно, для более быстрого отклика на запросы будут заимствоваться принципы работы из систем, оперирующих структурированными данными, с переносом части информации в кеш-память (по принципу существующего сегодня алгоритма, который используется в решении SAP HANA). Это, конечно, вызовет потребность в значительном увеличении процессорных мощностей и объема оперативной памяти, но компания Hitachi Data Systems к этому уже готова. Мы предлагаем новые блейд-серверы, которые обеспечивают эффективное решение таких задач. Благодаря технологии объединения серверов между собой можно получать высокопроизводительные системы с 8 сокетами и до 1,5 Тб оперативной памяти.
ВОЗМОЖНЫЙ ВЕКТОР РАЗВИТИЯ В РАМКАХ КОНЦЕПЦИИ BIG
DATA ВИДИТСЯ В НАПРАВЛЕНИИ УСОВЕРШЕНСТВОВАНИЯ
И ОПТИМИЗАЦИИ АЛГОРИТМОВ ПОИСКА
К категории Big Data Хельмут Бек, вице-президент по системам хранения данных Fujitsu Technology Solutions, относит две сущности — новое поколение данных и новое поколение технологий управления данными. «Комбинация громадных объемов самых разных типов данных создает информацию, представляющую новую ценность для бизнеса, — констатирует он. — Один из аспектов работы с Big Data — это инструменты Business Intelligent, способные оказать большое влияние на результаты бизнеса. В области Big Data компания Fujitsu Technology Solutions активно сотрудничает с SAP. Уже реализовано несколько интересных совместных решений. Одно из них, в рамках концепции SAP HANA, основано на принципах управления данными in-memory. Обе компании также совместно работают над решением задач в области ускорения запросов к хранилищам информации. Еще одно специфичное направление работы с „большими данными", где Fujitsu Technology Solutions действует активно, — интеграция серверов и систем хранения с помощью технологии Infiniband».
Быстрый рост новых цифровых данных требует пересмотра классических подходов к хранению данных. По мнению Геннадия Бородина, это обусловлено тем, что меняется тип данных, которые нужно хранить, и растет общий объем информации:
— На рынок ИТ это влияет следующим образом: меняются способы хранения данных и используемая для этого инфраструктура. И, конечно, подход производителей как программного обеспечения, так и аппаратных комплексов для хранения «больших данных». Практически все производители, в том числе и Hitachi Data Systems, сейчас предлагают не только «классические» системы хранения, а и принципиально новые решения, дополненные новыми, востребованными сегодня возможностями. Одним из направлений является совмещение двух типов доступа — блочного и файлового. Наше новое решение Hitachi Unified Storage (HUS), представленное на рынок в апреле этого года, сочетает в себе возможности «классического» блочного доступа с необходимым сегодня функционалом хранения файлов.
По мнению Хельмута Бека, в эпоху Big Data радикального изменения архитектуры систем хранения не произойдет. «Что определенно потребуется — так это решения, способные очень хорошо масштабироваться: с точки зрения емкости, производительности, а также с точки зрения SLA, — убежден он. — Если решение способно масштабироваться по этим трем измерениям, заказчик может справиться с проблемой роста данных. И это напрямую связано с экономикой. Ведь если решение не будет удовлетворять требованиям масштабирования, придется преждевременно сменить платформу из-за роста данных. Но тогда понадобятся огромные усилия и средства для проведения миграции и прочих затратных мероприятий. А масштабируемая система хранения позволяет использовать те же самые дисковые полки, реализовать репликацию между системами разного уровня (midrange, hi-end, entry level и так далее). Хорошее масштабирование обеспечивает производительную запись и чтение данных во всех классах различных систем».
Механизмы управления и защиты
Какие же механизмы управления данными и их защиты предлагаются в сценарии Big Data?
Основным подходом, по мнению Геннадия Белова, является унификация и упрощение управления всеми ресурсами хранения данных. С этой целью компания Hitachi Data Systems развивает и предлагает единую консоль управления всеми аппаратными продуктами — Hitachi Command Suite. Решение позволяет снизить затраты и поднять эффективность при работе в концепции Big Data.
Специалисты отмечают, что в сценариях работы с очень большими массивами данных традиционные подходы к защите информации с помощью резервного копирования становятся малоприменимыми. И дело здесь не только в необходимости предоставления больших объемов для хранения резервных копий, но и в невозможности обработать программными средствами резервного копирования миллионы файлов или объектов за приемлемое время, выделенное для создания резервной копии.
ДЛЯ БОЛЕЕ БЫСТРОГО ОТКЛИКА НА ЗАПРОСЫ
БУДУТ ЗАИМСТВОВАТЬСЯ ПРИНЦИПЫ РАБОТЫ
ИЗ СИСТЕМ, ОПЕРИРУЮЩИХ СТРУКТУРИРОВАННЫМИ
ДАННЫМИ, С ПЕРЕНОСОМ ЧАСТИ ИНФОРМАЦИИ В
КЭШ-ПАМЯТЬ. ЭТО ВЫЗОВЕТ ПОТРЕБНОСТЬ В
ЗНАЧИТЕЛЬНОМ УВЕЛИЧЕНИИ ПРОЦЕССОРНЫХ
МОЩНОСТЕЙ И ОБЪЕМА ОПЕРАТИВНОЙ ПАМЯТИ
— В терминах Big Data инкремент изменения — это обычно вновь созданный или измененный устройством либо человеком файл, — поясняет Геннадий Бородин. — Наиболее оптимальным способом защиты данных в данной ситуации становится механизм, позволяющий фиксировать все изменения непосредственно в момент их возникновения. Именно такой функционал лежит в основе решений для Big Data, предлагаемых HDS, — это платформа Hitachi Content Platform. Гарантированное хранение данных обеспечивается архитектурой решения. Внутренние механизмы контроля целостности, дублирование объектов и избыточность аппаратных компонентов позволяют исключить любую возможность потери данных в пределах одного дата-центра. Защита данных от катастроф реализована с помощью функций гранулярной репликации на уровне объектов. Таким образом, система может гарантировать максимальную защиту и сохранность критически важной информации компании.
Решению проблем Big Data способствуют новые технологии изготовления жестких дисков, в частности появление дисков SSD. «Интерес к флеш-памяти непрерывно растет, — отмечает Александр Гладкий. — И хотя емкость жестких дисков в среднем ежегодно удваивается, но по количеству операций ввода-вывода современные диски превосходят своих предшественников десятилетней давности менее чем вдвое. Именно по этому параметру флеш-диски в десятки раз производительнее классических магнитных. По удельной емкости флеш-диски все еще на порядок дороже, но они же наиболее быстро совершенствуются и дешевеют».
Александр уверен, что при нынешних темпах развития на ближайшее десятилетие обычные диски останутся основным ресурсом в СХД, а флеш-технологии будут использоваться для кеширования, наиболее критичных задач и на самом верхнем слое в иерархических СХД.
Геннадий Бородин считает, что на текущий момент однозначно говорить об уходе с рынка классических дисков преждевременно: «Несомненно, интерес к SSD-дискам продолжает расти, это подтверждают и исследования IDC. В системах хранения данных наблюдается тенденция к росту количества дисков, появляются технологии, позволяющие автоматически распределять различные данные в зависимости от их важности на разных дисках в рамках одной системы. Об интересе к развитию этой технологии говорит и тот факт, что корпорация Hitachi продала мощности по производству обычных дисков, но оставила в своем портфеле производство и перспективную разработку SSD-дисков. Однако, учитывая немалую сегодня стоимость SSD-дисков, высокие показатели скорости и относительно низкую плотность хранения, вероятно, они останутся основой только для критически важных и требовательных систем. Для остальных типов данных, конечно, будут использоваться стандартные диски, которые ныне, с учетом их большой емкости и сравнительно низкой цены, выступают подчас даже альтернативой для платформы резервного копирования».
Экономика хранения
Один из аспектов работы с «большими данными» — это экономика их хранения и обработки. Несколько лет тому назад отрасль предложила концепцию иерархического хранения, которая хорошо себя зарекомендовала.
— Иерархия начинается даже не с твердотельных дисков, а с оперативной памяти, — отмечает Хельмут Бек. — Если необходимо очень быстро выполнять операции чтения из памяти, то данные следует размещать в оперативной памяти. А следующий уровень готовности в подсистемах хранения представляют диски SSD — технология, которая за последние годы активно развивалась и доказала свою эффективность. В иерархии хранения задействованы также диски FC, SAS, iSCSI: они не уходят со сцены. И не стоит забывать про ленты. Надо лишь правильно соотнести требования к скорости доступа и емкости хранения данных и посмотреть на это с точки зрения цены. Все зависит от специфики бизнеса. Одни данные могут быть критичны к времени доступа, другие — к емкости хранения, третьи — к времени восстановления и так далее. Есть и другие критерии — самая низкая стоимость, лучшая надежность. Для громадных объемов данных лента может оказаться лучшим способом хранения. И те вендоры, которые спешат похоронить ленту, обманывают своих заказчиков. Широкое применение лента находит в инфраструктуре «облачных» вычислений. Можно даже сказать, что в «облаках» она обрела второе дыхание.
Наряду с иерархическим хранением данных существует ряд технологий, способствующих значительной экономии на стадии эксплуатации систем хранения. Например, с помощью дедупликации можно сделать диски более привлекательными для бэкапа.
ОДНИМ ИЗ НОВЫХ НАПРАВЛЕНИЙ В АРХИТЕКТУРЕ ХРАНЕНИЯ
ДАННЫХ ЯВЛЯЕТСЯ СОВМЕЩЕНИЕ ДВУХ ТИПОВ ДОСТУПА:
БЛОЧНОГО И ФАЙЛОВОГО
В качестве примера Хельмут Бек приводит ситуацию в одном из крупных банков. Там ежедневно создаются две синхронные копии данных — в одном городе, в двух дата-центрах. А третья, асинхронная копия хранится в другой стране. Таким образом, банк имеет три копии одних и тех же данных, подлежащие бэкапу. В сумме получается громадный объем данных. Применение методов дедупликации для этого заказчика оказалось чрезвычайно полезным.
Еще одна сторона работы с Big Data связана со сценарием восстановления. Если данные повреждены, необходимо иметь возможность вернуться назад, в определенную временную точку, для того чтобы восстановить их. «Можете ли вы представить, что один и тот же диск реплицируется вновь и вновь с целью защиты данных? — спрашивает Хельмут Бек. — Этого никто не может себе позволить. И никто так не делает, потому что это очень дорого. Во многих случаях заказчик нуждается в ленте как более дешевом носителе».
Применение ленточных систем резервного копирования уже сокращается, их начинают вытеснять дисковые системы с дедупликацией. Тем не менее, считает Александр Гладкий, полного вытеснения лент в ближайшее десятилетие точно не произойдет, поскольку емкость, скорость работы, надежность ленточных приводов растут, а удельная стоимость хранения для плохо сжимаемых данных (например, для медиаархивов) сохраняет большой отрыв от дисков. «Немаловажна и значительно лучшая энергоэффективность (особенно при длительных сроках хранения), а также существующие у заказчиков регламенты по обязательному внешнему хранению резервных копий», — отмечает Гладкий.
Для защиты данных компания Fujitsu Technology Solutions разработала интеллектуальную архитектуру: решение ETERNUS CS оптимизирует резервное хранение на диск.
ETERNUS CS вводит дополнительный уровень виртуализации между серверами и запоминающими устройствами. Все серверы получают логическое представление в крупном унифицированном целевом устройстве. Данные сначала записываются на диск ETERNUS CS, затем — на одно или несколько целевых устройств, таких как ленточные библиотеки, дисковые системы или дисковые системы дедупликации. Система обеспечивает сквозное унифицированное управление «резервная копия — диск — лента — диск». Тем самым реализуется управление жизненным циклом информации — концепция ILM. Благодаря консолидации сред ленточных систем хранения снижается потребность в лентах, дисках и библиотеках. Значительно сокращаются окно резервного копирования и время восстановления.
Защита данных в такой системе реализована на базе политик с помощью автоматического разделения на уровни: лента, диск, дедуплицированный диск, различные уровни репликации. Обеспечиваются гибкие уровни обслуживания для резервного копирования и архивации. Ценность информации соотносится с наиболее подходящей и экономически эффективной инфраструктурой.
Система продуктивно использует объем лент и предотвращает потери данных, связанные со старением носителя. Устройство может эффективно применяться в «облачных» инфраструктурах.
Рост данных открывает и новые перспективы для персонала в области управления информацией.
— В компаниях есть два самых важных ресурса — люди и данные, — подчеркивает Хельмут Бек. — Аналитики IDC говорят о том, что через 10 лет будет в 50 раз больше информации и в 75 раз больше файлов, а в ИТ при этом — в полтора раза больше людей. То есть данные растут быстрее, чем отрасль нанимает специалистов. Отсюда вывод: объем данных для управления в расчете на одного администратора вырастет. Выход из положения может быть найден в автоматизации управления хранением информации и в защите данных.