DSCon ATTO Technologies

Главная > Образование > Дисковые (RAID) массивы

Высокая доступность: опыт Dot Hill

Введение

Организации прилагают невероятные усилия для того, чтобы максимально увеличить доступность онлайн данных, а также, чтобы минимизировать или даже исключить потерю ценных данных. Решения RAID, дополненные репликацией данных или их копиями, помогают достичь обеих целей. Такой вариант очень эффективен и дешев, однако работает лишь в том случае, когда построен на базе надежной виртуализованной или обычной системы хранения данных SAN.

Когда данные в SAN недоступны, недоступными становятся и приложения, которым нужно обращаться к базе данных. Во время таких простоев работа в компании практически останавливается. Многие работники вынуждены приостановить текущую работу, хватаясь за телефоны и узнавая в чем дело. Таким образом, в этот период по-настоящему работает только персонал отдела поддержки пользователей.

Именно поэтому любой простой критически важных приложений очень дорого обходится. Размер подобных расходов главным образом зависит от размера самой компании. Однако, к примеру, в энергетике и телекоммуникациях каждая минута простоя обходится в $33 000 - $47 000.

Доступность измеряется в процентах от времени работоспособности системы. Уровень доступности "пять девяток" (99.999%) означает время простоя 5 минут в год. "Четыре девятки" (99.99%) означает около 53 минут простоя ежегодно. Несмотря на то, что это лишь статистические данные, в среднем 48 дополнительных минут без простоя каждый год могут довольно быстро оправдать вполне умеренные дополнительные инвестиции, необходимые для повышения надежности инфраструктуры SAN.

Dot Hill Systems понимает всю важность высокой доступности для своих клиентов. На протяжении своей 27-летней истории, Dot Hill заработал отличную репутацию за высочайшее качество своих, как аппаратных, так и программных продуктов. Такое ответственное отношение выражается в лучших на рынке показателях высокой доступности, и нашло свое отражение в названии семейства продуктов Dot Hill: AssuredSAN™.

Содержание данной статьи разбито на две части, каждая их которых заканчивается небольшим заключением. В разделе "Достижение высокой доступности" описываются показатели, учитываемые Dot Hill при разработке систем для того, чтобы гарантировать высокие: надежность и доступность. Эти показатели, используемые для оценки надежности систем, затем рассматриваются в разделе "Подтверждение эффективности решений с использованием точных методов анализа и эксплуатационных данных".

Достижение высокой доступности

Высокая доступность достигается благодаря комбинации трех элементов:

  • Высокая надежность (измеряется в среднем времени безотказной работы – MTBF) системы и несколько ее подсистем;
  • Избыточные подсистемы для исключения как можно большего количества точек отказа; и
  • Быстрое устранение любой неисправности (измеряется в среднем времени ремонта – MTTR) с использованием FRU (Field Replaceable Units) для всех критичных подсистем.

Приведенная ниже формула вычисления доступности показывает нам, насколько важна именно ремонтопригодность, которую имеет система. Максимально возможная доступность может быть достигнута только сокращением времени ремонта неисправности до минимума, чего можно достичь, используя FRU.

Формула вычисления доступности данных для систем хранения

Чтобы достичь максимальной доступности Dot Hill проектирует свои решения таким образом, чтобы они были максимально надежны, ремонтопригодны и, при этом, удобны в производстве .

Надежность и ремонтопригодность

При создании аппаратного обеспечения с высокой надежностью и ремонтопригодностью нужно учитывать саму систему, и несколько ее подсистем. Для достижения высокой доступности Dot Hill интегрирует надежность в процесс проектирования несколькими способами. Первый и самый очевидный – это использование избыточных устройств хранения (жестких дисков) с RAID-конфигурациями (RAID 1, 3, 5, 6, 10 и 50) и дублированными источниками питания, каждый из которых имеет свой вентилятор для предотвращения перегрева (и, как следствие, ускоренного отказа компонентов). Еще более высокий уровень доступности достигается использованием избыточных контроллеров. Благодаря исключению точек отказа в критичных подсистемах, сама система работает в нормальном режиме во время отказа любого FRU. И, не смотря на то, что подобный отказ влияет на MTBF подсистемы, он не уменьшает доступность самой системы.

Архитектура Dot Hill AssuredSAN обеспечивает полную избыточность для каждой подсистемы, где используется значительное количество активных компонентов. Само шасси, естественно, не может быть избыточным; и в нем есть единственная объединительная плата, которая выполняет простейшую функцию – обеспечивает соединения между избыточными контроллерами и избыточными жесткими дисками. Объединительная плата имеет минимальное количество активных компонентов, однако Dot Hill тщательно их выбирает для достижения максимально возможной высокой доступности. Результат – невероятно высокий MTBF шасси и его объединительной платы, и, соответственно, практически никакого негативного влияния на доступность системы.

Чтобы обеспечить систему высокой ремонтопригодностью для достижения наименьшего показателя MTTR, Dot Hill использует два взаимодополняющих принципа проектирования. Первый – использование модульного шасси с компонентами FRU. Возможность быстро заменить отказавшую подсистему минимизирует время, требующееся для ремонта системы и ее приведения в рабочее состояние. Благодаря такому модульному дизайну, обеспечивающему удобный доступ ко всем подсистемам, продукты линейки AssuredSAN обслуживаются невероятно легко. При этом вмешательство в выполнение системой своих функций при ремонте минимально или отсутствует вовсе.

Механический конструктив Dot Hill

Механический конструктив Dot Hill позволяет быстро заменить следующие модули FRU, поддерживающие режим "горячей" замены: блок питания и вентилятор, модуль ввода/вывода и контроллер, а также жесткие диски. Возможность замены резервных модулей FRU без остановки работы системы, еще больше увеличивает доступность. Обратите внимание, что модуль ввода/вывода и блок питания доступны с задней панели шасси, а жесткие диски – с передней панели. Также обратите внимание, что на рисунке не показаны резервные модули FRU. Это сделано для облегчения идентификации отдельных подсистем.

Второй принцип проектирования – это немедленное извещение о неисправности. Чем больше времени потребуется на диагностирование неисправности – тем больше времени будет нужно для ее исправления. Однако время здесь крайне важно по другой причине: отказ резервной подсистемы создает временную единственную точку отказа, которая, в свою очередь, увеличивает риск отказа на системном уровне. По этой причине программное обеспечение во всех системах Dot Hill умеет определять, изолировать и подтверждать любой отказ; передавать управление резервной подсистеме и тут же оповещать о неисправности. Способ отправки оповещений о неисправностях также может быть настроен таким образом, чтобы соответствовать рабочим процессам и для того, чтобы дежурный персонал мог быть быстро и правильно оповещен.

На уровне модулей FRU или подсистемы Dot Hill использует четыре отдельных принципа проектирования, чтобы максимально увеличить MTBF каждого модуля и, в то же время, включить возможности всех передовых функций SAN. Первый принцип – сокращение числа компонентов. Каждый компонент сам по себе несет угрозу отказа, поэтому, чем меньше компонентов, тем выше внутренняя надежность подсистемы. Инженеры Dot Hill стремятся максимально уменьшить число компонентов на всех монтажных платах и других модулях FRU подсистем.

Второй принцип заключается в использовании только высококачественных компонентов. Более качественные компоненты стоят дороже, однако их превосходство в производительности и более продолжительный срок службы положительно вносят существенный вклад в снижение общей стоимости владения в долгосрочной перспективе. Несмотря на более высокую стоимость каждого из компонентов, сокращение их количества и одновременное увеличение функциональности помогают улучшить соотношение цена/производительность для высоконадежной конструкции. По этим причинам Dot Hill использует компоненты высочайшего качества от проверенных поставщиков.

Третий принцип – использование компонентов, не работающих на пределе заявленных в их спецификациях условиях. Работа любого компонента в предельно допустимых условиях неизбежно сокращает его срок службы. Там, где это необходимо, Dot Hill выбирает компоненты, которые будут работать при 50% от предельно допустимых параметров напряжения, мощности и силы тока, указанных в их спецификации. Это может значительно увеличить срок службы и, соответственно, MTBF подсистемы.

Четвертый принцип, применяемый Dot Hill, уникален – разработка надежного программного обеспечения. В современном дизайне, надежность программного обеспечения является столь же важной, как и надежность аппаратной части, и, в некоторых случаях, даже более важной. Причина – дефекты программного обеспечения (включая прошивку), которые могут вызвать остановку работы, обычно исправляются намного дольше, чем более очевидные поломки железа. Дефекты часто зависят от состояния системы (цепочка последствий, ведущих к отказу), поэтому их сложно воспроизвести и быстро изолировать, а любой патч или обновление должны быть протестированы перед их выходом. Все это увеличивает MTTR для программных сбоев и неблагоприятно влияет на ремонтопригодность и доступность системы.

Чтобы увеличить надежность программного обеспечения, Dot Hill отслеживает улучшения в MTTD (среднее время обнаружения) дефектов, чтобы оценить зрелость всего программного обеспечения и прошивок в процессе разработки. Важно отметить, что MTTD не является общепринятым в отрасли показателем. Это определение зрелости ПО создано Dot Hill, как часть политики компании по отношению к качеству и надежности. Любая разработка должна иметь достаточно высокий показатель MTTD, чтобы считаться завершенной.

Разработка поступает в производство только после прохождения трех комплексных тестов. Тесты Engineering Verification Test (EVT) и Design Verification Test (DVT) подтверждают, что система и/или подсистема(ы) полностью удовлетворяют всем проектным требованиям, включая требования к высокой надежности для ПО и аппаратной части. Эти тесты также подтверждают, что незначительные различия компонентов, получаемых от их поставщиков, не повлияют на надежность системы в течение минимум 10 лет срока службы продукта. Тест Reliability Demonstration Test (RDT) – это отдельная и строгая проверка аппаратной части финального продукта, во время которого проверяется его ожидаемая надежность, доступность и ремонтопригодность (см. далее). В то время как некоторые производители проверяют всего несколько экземпляров в очень коротком демонстративном тесте, при проведении RDT в Dot Hill проверяются 18-20 полностью сконфигурированных систем, а тест длится 13 недель, в течение которых, для его успешного прохождения, не должно быть зафиксировано ни одного сбоя аппаратного обеспечения.

Проектирование с учетом производства (DFM)

Чтобы обеспечить высокую доступность, Группа обеспечения качества и доступности (QRA) Dot Hill проводит комплексный набор проверок параллельно с работой команды инженеров. Эти проверки направлены на то, чтобы убедиться, что в разработке используются передовые практики производства для обеспечения высокого качества и надежности, наряду с минимум дефектов. Также в процессе DFM в Dot Hill производится оценка качества всех компонентов и их поставщиков с использованием жестких технических условий для обеспечения минимально возможной вероятности возникновения сбоя.

Вся аппаратная часть затем изготавливается под таким же строгим контролем самого процесса производства, который должен отвечать двум отдельным критериям Dot Hill : 1) Требования к качеству механических компонентов; и 2) Процессу подтверждения качества компонентов, производимых поставщиком. Дополнительные производственные практики включают в себя отбраковку компонентов, подсистем и полных систем, чтобы максимально исключить вероятность выхода из строя на начальном этапе работы, а также непрерывный тест на надежность (ORT). Для проведения ORT еженедельно на 4-х недельный тест выбираются случайные экземпляры, чтобы убедиться, что производственный процесс соответствует желаемому уровню качества и надежности без ущерба возможностям, присущим конкретной разработке.

Подтверждение эффективности решений с использованием точных методов анализа и эксплуатационных данных

Надежность любой системы можно оценить, пользуясь "восходящим" анализом ее различных компонентов. Несмотря на то, что такой анализ может быть невероятно точным, особенно если проводится в соответствии с принятыми методиками, будет не лишним проверить полученные оценки на настоящих данных и продуктах, которые уже используются клиентами. Dot Hill делает и то, и другое.

Анализ надежности, доступности и ремонтопригодности (RAS)

RAS-методология от Dot Hill моделирует надежность, доступность и ремонтопригодность продукта как на уровне системы, так на уровне подсистем, а также предоставляет оценки уровней защиты данных RAID. Прогнозы на уровне компонентов Bellcore MTBF при температурах 25° C и 40° C приводятся для всех модулей FRU в качестве основы анализа, а все анализы осуществляются в соответствии с процедурой прогнозирования надежности электронного оборудования Telecordia SR-NWT-000332. Методология прогнозирования надежности Bellcore/Telecordia подразумевает серийную модель с показателем MTBF, основанным на любом случайном аппаратном сбое (включая сбои избыточных подсистем), вне зависимости от того, вызвал он или нет выход из строя всей системы.

В соответствии с методологией RAS, все модули FRU компонуются с помощью методов блоковой диаграммы надежности (RBD) (как показано на рисунке ниже), и проводится моделирование по методу Монте-Карло для различных уровней защиты данных (виртуальные диски/разделы LUN для RAID 5 N +1 и RAID 6 N +2) и различных показателей MTTR ; например: для времени восстановления обслуживания восемь часов ("Gold") и 16 часов ("Bronze") для любого сбоя модулей FRU или ПО. Анализ подразумевает среднее время преодоления сбоя для избыточного контроллера в 24 секунды, что основывается на результатах внутренних тестов Dot Hill .

Блоковая диаграмма надежности

На данной блоковой диаграмме надежности изображена конфигурация системы AssuredSAN 3000 Series, для которой было выполнено моделирование, включающая два четырехпортовых шасси iSCSI 2 U 24 RAID с двумя блоками питания/вентиляции, и дублированными RAID-контроллерами (к каждому подключен массив JBOD с двумя блоками питания/вентиляции и дублированными модулями ввода/вывода). В каждое шасси RAID или JBOD установлены 24 диска SAS емкостью 300ГБ (RAID 5 и RAID 6), что обеспечивает две различные конфигурации.

Обобщенные результаты RAS -анализа представлены в следующей таблице:

 
RAID 5
Два контроллера
RAID 6
Два контроллера
Время восстановления обслуживания 8 часов
Сервисный пакет "Gold"
99.999516% 99.999520%
Время восстановления обслуживания 16 часов
Сервисный пакет "Bronze"
99.999024% 99.999043%

Эти статистические показатели доступности можно представить в более понятном виде – ожидаемое среднее время простоя в год:

 
RAID 5
Два контроллера
RAID 6
Два контроллера
Время восстановления обслуживания 8 часов
Сервисный пакет "Gold"
2.54 минуты 2.52 минуты
Время восстановления обслуживания 16 часов
Сервисный пакет "Bronze"
5.13 минуты 5.03 минуты


Подтверждение эффективности решений с использованием эксплуатационных данных

Dot Hill работает главным образом с крупнейшими поставщиками на рынке хранения данных как производитель OEM-оборудования. Согласно этой бизнес модели, именно крупные поставщики, а не Dot Hill, осуществляют обслуживание установленных у клиентов систем SAN. Все эти поставщики используют результаты RAS-анализа от Dot Hill, чтобы определить необходимое количество запасных модулей FRU, а также отслеживают реальные отказы во время эксплуатации. Несмотря на то, что эти данные регулярно отправляются Dot Hill в целях контроля качества, однако большинство поставщиков считает такие данные конфиденциальными.

Один из поставщиков, особенно гордящийся предоставлением высокой доступности своим клиентам, однако согласился дать возможность Dot Hill раскрыть общие результаты его "измерителя доступности", который используется для непрерывного отслеживания доступности в реальном времени. Поставщик использует платформу Dot Hill AssuredSAN 3000 под своим брендом. "Измеритель доступности" подтвердил заявку Dot Hill на доступность уровня "пять девяток" на протяжении длительного времени реальными результатами, полученными на всех установленных системах.

Заключение

Как было продемонстрировано в этом документе, Dot Hill действительно стремится предоставлять максимально возможную высокую доступность для всей линейки своей продукции. Компания также гордится фактом, что ее приверженность предоставлению высочайшего качества и надежности позволила обеспечивать реальную доступность уровня "пять девяток" в продуктах корпоративного класса с превосходным соотношением цена/производительность.

Ни одна компания не предоставляет такой уровень доступности по такой привлекательной цене. Но не нужно верить на слово. Просто сравните сами уровень доступности решений Dot Hill с любым другим продуктом в этой ценовой категории. Оцените приверженность производителя качеству и надежности по его процессам проектирования, производства и тестирования. Посмотрите на результаты. Поговорите с коллегами об их опыте. Мы уверены, что если вы так сделаете, вы сами поймете то, что многие уже знают: Dot Hill Systems предоставляет самую высокую надежность и доступность на рынке.

Где купить?
Контакты

O разработчике -
Dot Hill Systems
Компания | Продукты | Поставщики | Поддержка | Образование | Press room
Copyright © 2000-2016 DSCon®. All Rights Reserved.