Что позволяют системы хранения данных. Как выбрать СХД? Системы Хранения Данных DAS, NAS, SAN. Fibre Channel в сетях хранения данных

– это аппаратно-программное решение для надежного хранения данных и предоставление быстрого и надежного доступа к ним.

Реализация аппаратного обеспечения в системах хранения данных (СХД) схоже с реализацией архитектуры персонального компьютера. Зачем же тогда вообще применять СХД в архитектуре локальной сети организации, почему нельзя обеспечить, внедрить СХД на базе обычного ПК?

СХД как дополнительный узел локальной сети на базе персоналки или даже мощного сервера существуют уже давно.

Простейшее предоставление доступа к данным по протоколам FTP (протокол передачи фалов) и SMB (протокол удаленного доступа к сетевым ресурсам) поддержка которых есть во всех современных операционных системах.

Почему же тогда вообще появились СХД ?

Все просто , появление СХД связано с отставанием в развитии и скорости работы постоянно запоминающих устройств (жестких магнитных дисков) от центрального процессора и оперативной памяти. Самым узким местом в архитектуре ПК до сих пор считается жесткий диск, даже не смотря на мощное развитие SATA (последовательного интерфейса) до скорости обмена в 600 Мбайт/с (SATA3 ), физическое устройство накопителя представляет собой пластину, доступ к данным на которой нужно получить с помощью считывающих головок, что очень медленно. Последние недостатки на текущий момент решены накопителями SSD (не механическое запоминающее устройство), построенных на основе микросхем памяти. Кроме высокой цены на SSD у них есть, на мой взгляд, на текущий момент времени, недостаток в надежности. Инженеры СХД предложили вытеснить устройства хранения в отдельный элемент, а оперативную память таких устройств использовать для хранения часто меняющихся данных по специальным алгоритмам, для чего понадобилась программная составляющая продукта. В итоге системы хранения данных работают быстрее, чем накопители на жестких дисках в серверах, а вынос устройства хранения (дисковой подсистемы в отдельный элемент) повлияло на надежность и централизацию системы в целом.

Надежность обеспечил факт реализации в отдельном устройстве дисковой системы, которая работая с программной составляющей, выполняет одну функцию – это операции ввода/вывода и хранения данных.

Кроме простого принципа – одно устройство, одна функция обеспечивающее надежность. Все основные узлы: блоки питания, контроллеры системы хранения данных дублируют, что конечно еще больше увеличивает надежность системы, но сказывается на цене конечного продукта.

Вынос дисковой системы в отдельный узел позволяет централизовать устройства хранения . Как правило, без отдельного сетевого хранилища, домашние папки пользователей, почта, базы данных хранятся на отдельных узлах, как правило, серверах в сети, что очень неудобно, не надежно. Приходится делать резервные копии, дублировать данные на резервный сервер в сети, что кроме расходов на поддержку и аппаратуру, программное обеспечение, занимает часть пропускной способности сети.

Вот как это выглядит:

С отдельным СХД:

В зависимости от способа, технологии подключения СХД в информационную сеть. СХД подразделяют на: DAS, NAS, SAN

DAS (Direct Attached Storage) – способ подключения, который ничем не отличается от стандартного подключения жесткого диска, массивов дисков (RAID) к серверу или ПК. Как правило, для подключения используется SAS .

SAS – фактически, протокол рассчитанный на замену SCSI, использует последовательный интерфейс в отличии от SCSI, но команды используются те же самые, что и в SCSI. SAS имеет большую пропускную способность благодаря канальным соединениям в одном интерфейсе.

NAS (Network Attached Storage) – дисковая система подключается к общей LAN сети, используется транспортный протокол TCP, поверх модели работают протоколы SMB, NFS (удаленный доступ к файлам и принтерам).

SAN (Storage Area Network) – это выделенная сеть объединяющая устройства хранения с серверами. Работает с использованием протокола Fibre Channel либо iSCSI .

С Fibre Channel все понятно – оптика. А вот iSCSI – инкапсуляция пакетов в протокол IP, позволяет создавать сети хранения данных на основе Ethernet инфраструктуры, скорость передачи 1Gb и 10GB. Скорости работы iSCSI по мнению разработчиков должно хватать почти для всех бизнес приложений. Для подключения сервера к СХД по iSCSI требуются адаптеры с поддержкой iSCSI . До каждого устройства при использовании iSCSI прокладывают как минимум два маршрута, применяя VLAN , каждому устройству и LUN (определяет виртуальный раздел в массиве, используется при адресации) присваивается адрес (World Wide Name ).

Отличие NAS от SAN в том, что в сети SAN при операциях ввода/вывода данные считываются и записываются блоками. СХД не имеет никакого представления об устройстве файловых систем.

Из наиболее брендовых вендоров на рынке устройств хранения можно выделить: NetApp, IBM, HP, DELL, HITACHI, EMC.

Для нашего проекта требуется система хранения данных со следующими характеристиками:

  • Объем 1Тб для файлов, 1Тб для операционных систем серверов и баз данных, 300 – 500 Гб, для резервных серверов + запас. Итого минимум 3Тб дискового пространства
  • Поддержка протоколов SMB и NFS, для раздачи общих файлов для пользователей без участия серверов
  • Если хотим загрузку гипервизора с СХД , нужен как минимум протокол iSCSI
  • По идее еще нужно учитывать такой важный параметр как скорость ввода вывода (IO) который сможет обеспечить СХД. Прикинуть это параметр можно измерением IO на действующем железе, например программой IOMeter.

Нужно учитывать, что кластеризация от Microsoft работает только через Fibre Channel.

Вот список фирм и железок для выбора:

Asustor

Asustor AS 606T , AS 608T , 609 RD (кроме возможности установки до 8-ми дисков емкостью 4Tb заявлена поддержка VMware, Citrix и Hyper-V.

Аппаратная составляющая

CPU Intel Atom 2.13

RAM 1GB (3GB) DDR3

Hard 2.5, 3.5, SATA 3 or SSD

Lan Gigabit Ethernet – 2

ЖК-Экран, HDMI

Сеть

Сетевые протоколы

Файловая система

Для встроенных жестких дисков: EXT4, Для внешних жестких дисков: FAT32, NTFS, EXT3, EXT4, HFS+

Хранение

Поддержка нескольких томов с резервными дисками

Тип тома: Single disk, JBOD, RAID 0, RAID 1, RAID 5, RAID 6, RAID 10

Поддержка онлайн-миграции уровней RAID-массива

Максимальное число целей: 256

Максимальное число LUN: 256

Маскирование целей

Отображение LUN

Монтирование ISO-образов

Поддержка MPIO и MCS

Постоянное резервирование (SCSI-3)

Управление дисками

Поиск поврежденных блоков по графику

Сканирование S.M.A.R.T по графику

Поддерживаемые ОС

Windows XP, Vista, 7, 8, Server 2003, Server 2008, Server 2012

Mac OS X 10.6 Onwards

UNIX, Linux, and BSD

Резервное копирование

Поддержка режима Rsync (удаленной синхронизации)

Резервное копирование в «облако»

Резервное копирование по FTP

Резирвирование на внешние носители

Резервное копирование одним касанием

Системное администрирование

Тип журнала регистрации: системный журнал, журнал подключений, журнал доступа к файлам

Регистратор действий пользователя в реальном времени

Системный монитор реального времени

Сетевая корзина

Дисковая квота пользователей

Виртуальный диск (монтирование образов ISO, макс. 16)

Поддержка ИБП

Управление доступом

Максимальное число пользователей: 4096

Максимальное число групп: 512

Максимальное число папок общего доступа: 512

Максимальное число одновременных подключений: 512

Поддержка Windows Active Directory

Безопасность

Брандмауэр: предотвращение несанкционированного доступа

Сетевой фильтр: предотвращение сетевых атак

Уведомления об угрозах: E-mail, SMS

Защищенные подключения: HTTPS, FTP через SSL/TLS, SSH, SFTP, Rsync через SSH

Операционная система ADM с возможностью подключения дополнительных модулей через app central

Модели AS 604RD , AS 609RD в отличие от AS 606T , AS 608T , не имеют в своем составе ЖК-дисплея, предназначены для установки в стойку и имеют резервный блок питания, заявлена поддержка платформ виртуализации

Netgear

Ready Nas 2100 , Ready Nas 3100 , Ready Nas Pro 6

Аппаратная составляющая

CPU Intel SOC 1ГГц

Hard 2.5, 3.5, SATA 2 or SSD

Lan Gigabit Ethernet – 2

Сеть

Сетевые протоколы

CIFS/SMB, AFP, NFS, FTP, WebDAV, Rsync, SSH, SFTP, iSCSI, HTTP, HTTPS

Файловая система

Для встроенных жестких дисков: BTRFS, Для внешних жестких дисков: FAT32, NTFS, EXT3, EXT4, HFS+

Хранение

Поддержка онлайн-расширения емкости RAID-массива

Максимальное число целей: 256

Максимальное число LUN: 256

Маскирование целей

Отображение LUN

Управление дисками

Ёмкость диска, производительность, мониторинг загрузки

Сканирование для поиска плохих блоков на дисках

Поддержка HDD S.M.A.R.T.

Он-лайн коррекция данных на дисках

Поддержка режима Disk Scrubbing

Поддержка дефрагментации

Сообщения (от сервиса SMTP через e-mail, SNMP, syslog, локальный журнал)

Автоматическое выключение (HDD, вентиляторов, ИБП)

Восстановление работоспособности при возобновлении питания

Поддерживаемые ОС

Microsoft Windows Vista (32/64-bit), 7 (32/64-bit), 8 (32/64-bit), Microsoft Windows Server 2008 R2/2012, Apple OS X, Linux/Unix, Solaris, Apple iOS, Google Android)

Резервное копирование

Неограниченное число snapshot для непрерывной защиты.

Восстановление снимков в любой момент времени. Через графический интерфейс пользователя (консоль администратора), ReadyCLOUD, или проводник Windows

Возможность создания snapshot вручную или через планировщик

Синхронизация файлов через R-sync

Облачное управление Remote Replication(ReadyNAS to ReadyNAS). Не требует лицензий для устройств работающих под oперационной системой Radiator OS v6.

Резервирование в “горячем” режиме

Поддержка eSATA

Поддержка резервного копирования на внешние диски to e (USB/eSATA)

Поддержка технологии Remote Apple Time Machine backup and restore (через ReadyNAS Remote)

Поддержка сервиса ReadyNAS Vault Cloud (опционально)

Поддержка синхронизации через ReadyDROP (синхронизация файлов Mac/Windows на ReadyNAS)

Поддержка сервиса DropBox для файловой синхронизации (требуется учётная запись на сервисе DropBox)

Системное администрирование

ReadyCLOUD для обнаружения и управления устройствами

RAIDar –агент для обнаружения устройств в сетиt (Windows/Mac)

Сохранение и восстановление файла конфигураций

Журнал событий

Поддержка сообщений для сервера syslog

Поддержка сообщений для SMB

Графический интерфейс пользователя на русском и английском языках

Genie+ marketplace. Встроенный магазин приложений для повышения функциональности устройства

Поддержка Unicode- символов

Дисковый менеджер

Поддержка Thin provision Shares and LUNs

Мгновенное выделение ресурсов

Управление доступом

Максимальное число пользователей: 8192

Максимальное число групп: 8192

Максимальное количество папок предоставляемых для сетевого доступа: 1024

Максимальное количество подключение: 1024

Доступ к папкам и файлам на основе ACL

Расширенные разрешения для папок и подпапок на основе ACL для CIFS / SMB, AFP, FTP, Microsoft Active Directory (AD) Domain Controller Authentication

Собственные списки доступа

Списки доступа ReadyCLOUD на основе ACL

Операционная система

ReadyNAS OS 6 базируется на Linux 3.x

Ready Nas 3100 отличает Ready Nas 2100 объемом памяти 2Гб ECC

Ready Nas Pro 6 – хранилище с шестью слотами, процессор Intel Atom D510, память DDR2 1Гбайт

Qnap

TS-869U-RP , TS-869 PRO

Аппаратная составляющая

CPU Intel Atom 2.13ГГц

Hard 2.5, 3.5, SATA 3 or SSD

Lan Gigabit Ethernet – 2

Сеть

IPv4, IPv6, Supports 802.3ad and Six Other Modes for Load Balancing and/or Network Failover, Vlan

Сетевые протоколы

CIFS/SMB, AFP, NFS, FTP, WebDAV, Rsync, SSH, SFTP, iSCSI, HTTP, HTTPS

Файловая система

Для встроенных жестких дисков: EXT3, EXT4, Для внешних жестких дисков: FAT32, NTFS, EXT3, EXT4, HFS+

Хранение

Тип тома: RAID 0, RAID 1, RAID 5, RAID 6, RAID 10

Поддержка онлайн-расширения емкости RAID-массива

Максимальное число целей: 256

Максимальное число LUN: 256

Маскирование целей

Отображение LUN

Инициатор iSCSI (Виртуальный диск)

Stack Chaining Master

До 8 виртуальных дисков

Управление дисками

Увеличение емкости дискового пространства RAID-массива без потери данных

Сканирование на сбойные блоки

Функция восстановления RAID-массива

Поддержка Bitmap

Поддерживаемые ОС

Резервное копирование

Репликация в реальном времени (RTRR)

Работает как в качестве RTRR сервера, так и клиента

Поддерживает резервное копирование в реальном времени и по расписанию

Возможны фильтрация файлов, сжатие и шифрование

Кнопка копирования данных с/на внешнее устройство

Поддержка Apple Time Machine с управлением резервирования

Репликация ресурсов на уровне блоков (Rsync)

Работает как в качестве сервера, так и клиента

Защищенная репликация между серверами QNAP

Резервное копирование на внешние носители

Резервное копирование на облачные системы хранения данных

Приложение NetBak Replicator для Windows

Поддержка Apple Time Machine

Системное администрирование

Веб-интерфейс на технологии AJAX

Подключение по HTTP/ HTTPS

Мгновенные уведомления по E-mail и SMS

Управление системой охлаждения

DynDNS и специализированный сервис MyCloudNAS

Поддержка ИБП с SNMP-управлением (USB)

Поддержка сетевых ИБП

Монитор ресурсов

Сетевая корзина для CIFS/ SMB и AFP

Подробные журналы событий и подключений

Список активных пользователей

Клиент Syslog

Обновление микропрограммы

Сохранение и восстановление системных настроек

Восстановление заводских настроек

Управление доступом

До 4096 учетных записей пользователей

До 512 групп пользователей

До 512 сетевых ресурсов

Пакетное добавление пользователей

Импорт/экспорт пользователей

Задание параметров квотирования

Управление правами доступа на вложенные папки

Операционная система

TS – 869 Pro – модель без резервного блока питания, объем памяти 1Гб

Synology

RS 2212 , DS1813

Аппаратная составляющая

CPU Intel Core 2.13ГГц

Hard 2.5, 3.5, SATA 2 or SSD

Lan Gigabit Ethernet – 2

Сеть

IPv4, IPv6, Supports 802.3ad and Six Other Modes for Load Balancing and/or Network Failover

Сетевые протоколы

CIFS/SMB, AFP, NFS, FTP, WebDAV, SSH

Файловая система

Для встроенных жестких дисков: EXT3, EXT4, Для внешних жестких дисков: NTFS, EXT3, EXT4

Хранение

Тип тома: RAID 0, RAID 1, RAID 5, RAID 6, RAID 10

Максимальное число целей: 512

Максимальное число LUN: 256

Управление дисками

Изменение уровня RAID без остановки работы системы

Поддерживаемые ОС

Windows 2000 и последующие версии, Mac OS X 10.3 и последующие версии, Ubuntu 9.04 и последующие версии

Резервное копирование

Сетевое резервирование

Локальное резервирование

Синхронизация папок общего доступа

Резервирование рабочего стола

Системное администрирование

Уведомление о событиях системы по SMS, E-mail

Пользовательская квота

Мониторинг ресурсов

Управление доступом

До 2048 учетных записей пользователей

До 256 групп пользователей

До 256 сетевых ресурсов

Операционная система

DS1813 – 2 Гб оперативной памяти, 4 Gigabit, поддержка HASP 1C, поддержка дисков 4Тб

Thecus

N8800PRO v2 , N7700PRO v2 , N8900

Аппаратная составляющая

CPU Intel Core 2 1.66ГГц

Lan Gigabit Ethernet – 2

Возможность LAN 10Гб

Сеть

IPv4, IPv6, Supports 802.3ad and Six Other Modes for Load Balancing and/or Network Failover

Сетевые протоколы

CIFS/SMB, NFS, FTP

Файловая система

Для встроенных жестких дисков: EXT3, EXT4, Для внешних жестких дисков: EXT3, EXT4, XFS

Хранение

Тип тома: RAID 0, RAID 1, RAID 5, RAID 6, RAID 10, RAID 50, RAID 60

Поддержка онлайн-расширения емкости RAID-массива

Маскирование целей

Отображение LUN

Управление дисками

Контроль состояния дисков (S.M.A.R.T)

Сканирование на сбойные блоки

Возможность монтирования ISO-образов

Поддерживаемые ОС

Microsoft Windows 2000, XP, Vista (32/ 64 bit), Windows 7 (32/ 64 bit), Server 2003/ 2008

Резервное копирование

Acronis True Image

Утилита резервного копирования от Thecus

Чтение с оптического диска на Nas

Системное администрирование

Серверный веб-интерфейс администрирования

Управление доступом

Поддержка ADS

Операционная система

N7700PRO v2 – модель без резервного блока питания

N8900 – новая модель с поддержкой SATA 3 и SAS

Исходя из данных выше, в необходимости не менее 3-x Tb на текущий момент, а при обновлении ОС и программ эту цифру можно умножить на два, то нужно дисковое хранилище с емкостью не менее 6Tb , и с возможностью роста. Поэтому с закладкой на будущее и организации массива RAID 5 итоговой цифрой является необходимость в 12 Tb . При поддержке дисковой системы жестких дисков емкостью 4Tb, нужна система с не менее шестью отсеками для дисков.

Выбор был существенно уменьшен следующими моделями: AS 609RD , Ready NAS 3200 , TS-869U-RP , RS-1212RP+ , N8900 . Все модели имеют в своем составе дополнительный блок питания . И заявленную производителем поддержку известных платформ виртуализации . Наиболее интересной показалась модель от NetGear - Ready NAS 3200 , так как только эта модель кроме SMART поддерживала хоть какие та дополнительные технологии для работы с дисками кроме SMART и память с ECC, но цена вылетала за 100 000 руб, к тому же были сомнения по поводу возможности работы в ней дисков 4Tb и SATA3. Цена за RS-1212RP+ , тоже вылетала выше 100 тысяч. AS 609RD – игрок на рынке систем хранения очень новый, поэтому не известно как поведет себя эта СХД .

Из чего оставалось только две системы на выбор : TS-869 U- RP , N8900 .

TS-869U-RP – на текущий момент стоит порядка 88 000 руб.

N8900 – цена 95 400 руб, имеет массу преимуществ в сравнении с TS-869U-RP – это поддержка как дисков SATA так и SAS , возможность дополнительной установки адаптера 10 Gb , более мощный двуядерный процессор, поддержка дисков SATA3 4Tb. Кроме того существует резервирование прошивки на резервную микросхему, что дает более выгодную надежность по сравнению с другими системами.

  • Назад

Shkera

Зависимость бизнес-процессов предприятия от ИТ-сферы постоянно растет. На сегодня вопросу непрерывности работы ИТ-сервисов уделяют внимание не только крупные компании, но и представители среднего, а зачастую и малого бизнеса.

Одним из центральных элементов обеспечения отказоустойчивости является система хранения данных (СХД) - устройство на котором централизовано храниться вся информация. СХД характеризуется высокой масштабируемостью, отказоустойчивостью, возможностью выполнять все сервисные операции без остановки работы устройства (в том числе замену компонентов). Но стоимость даже базовой модели измеряется в десятках тысяч долларов. Например, Fujitsu ETERNUS DX100 с 12-ю дисками Nearline SAS 1Tb SFF (RAID10 6TB) стоит порядка 21 000 USD , что для небольшой компании очень дорого.

В нашей статье мы предлагаем рассмотреть варианты организации бюджетного хранилища , которое не проигрывает по производительности и надежности классическим системам. Для его реализации предлагаем использовать CEPH .

Что такое CEPH и как он работает?

CEPH – хранилище на базе свободного ПО, представляет из себя объединение дисковых пространств нескольких серверов (количество серверов на практике измеряется десятками и сотнями). CEPH позволяет создать легкомасштабируемое хранилище с высокой производительностью и избыточностью ресурсов. CEPH может использоваться как в качестве объектного хранилища (служить для хранения файлов) так и в качестве блочного устройства (отдача виртуальных жестких дисков).

Отказоустойчивость хранилища обеспечивается репликацией каждого блока данных на несколько серверов. Количество одновременно хранимых копий каждого блока называется фактором репликации, по умолчанию его значение равно 2. Схема работы хранилища показана на рисунке 1, как видим информация разбивается на блоки, каждый из которых распределяется по двум разным нодам.

Рисунок 1 - Распределение блоков данных


Если на серверах не используются отказоустойчивые дисковые массивы, для надежного хранения данных рекомендуется использовать более высокое значение фактора репликации. В случае выхода из строя одного из серверов CEPH фиксирует недоступность блоков данных (рисунок 2), которые на нем размещены, ожидает определенное время (параметр настраивается, по умолчанию 300 сек.), после чего начинает воссоздание недостающих блоков информации в другом месте (рисунок 3).

Рисунок 2 - Выход из строя одной ноды


Рисунок 3 - Восстановление избыточности


Аналогично, в случае добавления в кластер нового сервера происходит ребаллансировка хранилища с целью равномерного заполнения дисков на всех нодах. Механизм который контролирует процессы распределения блоков информации в кластере CEPH называется CRUSH.

Для получения высокой производительности дискового пространства в кластерах CEPH рекомендуется использовать функционал cache tiering (многоуровневое кэширование). Смысл его заключается в том, чтобы создать отдельный высокопроизводительный пул и использовать его для кэширования, основная же информация будет размещена на более дешевых дисках (рисунок 4).

Рисунок 4 - Логическое представление дисковых пулов


Многоуровневое кэширование будет работать следующим образом: запросы клиентов на запись будут записываться в самый быстрый пул, после чего перемещаться на уровень хранения. Аналогично по запросам на чтение – информация при обращении будет подниматься на уровень кэширования и обрабатываться. Данные продолжают оставаться на уровне кэша пока не становятся неактивными или пока не теряют актуальность (рисунок 5). Стоит отметить, что кэширование можно настроить только на чтение, в этом случае запросы на запись будут заноситься прямо в пул хранения.

Рисунок 5 - Принцип работы кэш-тирринг


Рассмотрим реальные сценарии использования CEPH в организации для создания хранилища данных. В качестве потенциального клиента рассматриваются организации малого и среднего бизнеса, где будет наиболее востребована эта технология. Мы рассчитали 3 сценария использования описанного решения:

  1. Производственное или торговое предприятие с требованием к доступности внутренней ERP системы и файлового хранилища 99,98% в год, 24/7.
  2. Организация, которой для ее бизнес-задач требуется развернуть локальное частное облако.
  3. Очень бюджетное решение для организации отказоустойчивого блочного хранилища данных, полностью независимое от аппаратного обеспечения с доступностью 99,98% в год и недорогим масштабированием.

Сценарий использования 1. Хранилище данных на базе CEPH

Рассмотрим реальный пример применения CEPH в организации. Например, нам требуется отказоустойчивое производительное хранилище объемом 6 Тб, но затраты даже на базовую модель СХД с дисками составляют порядка $21 000 .

Собираем хранилище на базе CEPH. В качестве серверов предлагаем использовать решение Supermicro Twin (Рисунок 6). Продукт представляет собой 4 серверные платформы в едином корпусе высотой 2 юнита, все основные узлы устройства дублируются, что обеспечивает его непрерывное функционирование. Для реализации нашей задачи будет достаточно использовать 3 ноды, 4-я будет в запасе на будущее.




Рисунок 6 - Supermicro Twin


Комплектуем каждую из нод следующим образом: 32 Гб ОЗУ, 4-х ядерный процессор 2,5 Ггц, 4 SATA диска по 2 Тб для пула хранения объединяем в 2 массива RAID1, 2 SSD диска для пула кэширования также объединяем в RAID1 . Стоимость всего проекта указана в таблице 1.

Таблица 1. Комплектующие для хранилища на базе CEPH

Комплектующие Цена, USD Кол-во Стоимость, USD
4 999,28 1 4 999,28
139,28 6 835,68
Процессор Ivy Bridge-EP 4-Core 2.5GHz (LGA2011, 10MB, 80W, 22nm) Tray 366,00 3 1 098,00
416,00 12 4 992,00
641,00 6 3 846,00
ИТОГО 15 770,96

Вывод: В результате построения хранилища получим дисковый массив 6Tb c затратами порядка $16 000 , что на 25% меньше чем закупка минимальной СХД, при этом на текущих мощностях можно запустить виртуальные машины, работающие с хранилищем, тем самым сэкономить на покупке дополнительных серверов. По сути – это законченное решение.

Серверы, из которых строится хранилище, можно использовать не только как вместилище жестких дисков, но в качестве носителей виртуальных машин или серверов приложений.

Сценарий использования 2. Построение частного облака

Задача состоит в том, чтобы развернуть инфраструктуру для построения частного облака с минимальными затратами.

Построение даже небольшого облака состоящего из например из 3-х носителей примерно в $36 000 : $21 000 – стоимость СХД + $5000 за каждый сервер с 50% наполнением.

Использование CEPH в качестве хранилища позволяет совместить вычислительные и дисковые ресурсы на одном оборудовании. То есть не нужно закупать отдельно СХД - для размещения виртуальных машин будут использоваться диски установленные непосредственно в серверы.

Краткая справка:
Классическая облачная структура представляет из себя кластер виртуальных машин, функционирование которых обеспечивают 2 основных аппаратных компонента:

  1. Вычислительная часть (compute) - серверы, заполненные оперативной памятью и процессорами, ресурсы которых используются виртуальными машинами для вычислений
  2. Система хранения данных (storage) – устройство наполненное жесткими дисками, на котором хранятся все данные.

В качестве оборудования берем те же серверы Supermicro, но ставим более мощные процессоры8-ми ядерные с частотой 2,6 GHz, а также 96 Гб ОЗУ в каждую ноду , так как система будет использоваться не только для хранения информации, но и для работы виртуальных машин. Набор дисков берем аналогичный первому сценарию.

Таблица 2. Комплектующие для частного облака на базе CEPH

Комплектующие Цена, USD Кол-во Стоимость, USD
Supermicro Twin 2027PR-HTR: 4 hot-pluggable systems (nodes) in a 2U form factor. Dual socket R (LGA 2011), Up to 512GB ECC RDIMM, Integrated IPMI 2.0 with KVM and Dedicated LAN. 6x 2.5" Hot-swap SATA HDD Bays. 2000W Redundant Power Supplies 4 999,28 1 4 999,28
Модуль памяти Samsung DDR3 16GB Registered ECC 1866Mhz 1.5V, Dual rank 139,28 18 2 507,04
Процессор Intel Xeon E5-2650V2 Ivy Bridge-EP 8-Core 2.6GHz (LGA2011, 20MB, 95W, 32nm) Tray 1 416,18 3 4 248,54
Жесткий диск SATA 2TB 2.5" Enterprise Capacity SATA 6Gb/s 7200rpm 128Mb 512E 416 12 4 992,00
Твердотельный накопитель SSD 2.5"" 400GB DC S3710 Series. 641 6 3 846,00
ИТОГО 20 592,86

Собранное облако будет иметь следующие ресурсы с учетом сохранения стабильности при выходе из строя 1-й ноды:

  • Оперативная память: 120 Гб
  • Дисковое пространство 6000 Гб
  • Процессорные ядра физические: 16 Шт.

Собранный кластер сможет поддерживать порядка 10 средних виртуальных машин с характеристиками: 12 ГБ ОЗУ / 4 процессорных ядра / 400 ГБ дискового пространства.

Также стоит учесть что все 3 сервера заполнены только на 50% и при необходимости их можно доукомплектовать, тем самым увеличив пул ресурсов для облака в 2 раза.

Вывод: Как видим, мы получили как полноценный отказоустойчивый кластер виртуальных машин, так и избыточное хранилище данных - выход из строя любого из серверов не критичен – система продолжит функционирование без остановки, при этом стоимость решения примерно в 1,5 раза ниже , чем купить СХД и отдельные сервера.

Сценарий использования 3. Построение сверхдешевого хранилища данных

Если бюджет совсем ограничен и нет денег на закупку оборудования описанного выше, можно закупить серверы бывшие в употреблении, но на дисках экономить не стоит – их настоятельно рекомендуется купить новые.

Предлагаем рассмотреть следующую структуру: закупается 4 серверные ноды, в каждый сервер ставиться по 1 SSD-диску для кэширования и по 3 SATA диска . Серверы Supermicro с 48 ГБ ОЗУ и процессорами линейки 5600 можно сейчас купить примерно за $800 .

Диски не будут собираться в отказоустойчивые массивы на каждом сервере, а будут представлены как отдельное устройство. В связи с этим для повышения надежности хранилища будем использовать фактор репликации 3. То есть у каждого блока будет 3 копии. При такой архитектуре зеркалирования дисков SSD кеша не требуется, так как происходит автоматическое дублирование информации на другие ноды.

Таблица 3. Комплектующие для стореджа

Вывод: В случае необходимости в данном решении можно использовать диски большего объема, либо заменить их на SAS, если нужно получить максимальную производительность для работы СУБД. В данном примере в результате получим хранилище объемом 8 ТБ с очень низкой стоимостью и очень высокой отказоустойчивостью. Цена одного терабайта получилась в 3,8 раза дешевле , чем при использовании промышленной СХД за $21000.

Итоговая таблица, выводы

Конфигурация СХД Fujitsu ETERNUS DX100 + 12 Nearline SAS 1Tb SFF (RAID10) СХД Fujitsu ETERNUS DX100 + 12 Nearline SAS 1Tb SFF (RAID10) + Supermicro Twin Наш сценарий 1: хранилище на базе CEPH Наш сценарий 2: построение частного облака Нашсценарий 3: построение сверхдешевого хранилища
Полезный обьем, ГБ 6 000 6 000 6 000 6000 8 000
Цена, USD 21000 36000 15 770 20 592 7 324
Стоимость 1 ГБ, USD 3,5 6 2,63 3,43 0,92
Количество IOPs* (чтение 70%/запись 30%, Размер блока 4К) 760 760 700 700 675
Назначение Хранилище Хранилище + Вычисление Хранилище + Вычисление Хранилище + Вычисление Хранилище + Вычисление

*Расчет количества IOPs выполнен для созданных массивов из дисков NL SAS на СХД и дисков SATA на сторедже CEPH, кэширование отключалось для чистоты полученных значений. При использовании кэширования показатели IOPs будут значительно выше до момента заполнения кэша.

В итоге можно сказать, что на основе кластера CEPH можно строить надежные и дешевые хранилища данных. Как показали расчеты, использовать ноды кластера только для хранения не очень эффективно – решение выходит дешевле чем закупить СХД, но не на много – в нашем примере стоимость хранилища на CEPH была примерно на 25% меньше чем Fujitsu DX100. По-настоящему экономия ощущается в результате совмещения вычислительной части и хранилища на одном оборудовании - в таком случае стоимость решения будет в 1,8 раз меньше, чем при построении классической структуры с применением выделенного хранилища и отдельных хост-машин.

Компания EFSOL реализует данное решение по индивидуальным требованиям. Мы можем использовать имеющееся у вас оборудование, что ещё более снизит капитальные затраты на внедрение системы. Свяжитесь с нами и мы проведем обследование вашего оборудования на предмет его использования при создании СХД.

Система хранения данных (СХД) представляет собой комплекс программных и аппаратных средств, созданных для управления и хранения больших объёмов информации. Основными носителями информации в данное время являются жёсткие диски, объёмы которых совсем недавно достигли 1 терабайта. Основным хранилищем информации в малых компаниях являются файловые серверы и серверы СУБД, данные которых хранятся на локальных жёстких дисках. В крупных компаниях объёмы информации могут достигать сотен терабайт, причём к ним выдвигаются ещё большие требования по скорости и надёжности. Никакие локально подключенные к серверам диски не могут удовлетворить этим потребностям. Именно поэтому крупные компании внедряют системы хранения данных (СХД).

Основными компонентами СХД являются: носители информации, системы управления данными и сети передачи данных.

  • Носители информации. Как уже было сказано выше, сейчас основными носителями информации являются жёсткие диски (возможно в ближайшем будущем будут заменены твердотельными электронными накопителями SSD). Жёсткие диски, подразделяются на 2 основных типа: надёжные и производительные SAS (Serial Attached SCSI) и более экономичные SATA. В системах резервного копирования также применяются ленточные накопители (стриммеры).
  • Системы управления данными. СХД предоставляет мощные функции по управлению данными. СХД обеспечивает функции зеркалирования и репликации данных между системами, поддерживает отказоустойчивые, самовосстанавливающиеся массивы, предоставляет функции мониторинга, а также функции резервного копирования на аппаратном уровне.
  • Сети передачи данных. Сети передачи данных предоставляют среду, по которой осуществляется связь между серверами и СХД или связь одной СХД с другой. Жёсткие диски разделяют по типу подключения: DAS (Direct Attached Storage) - непосредственно подключенные к серверу диски, NAS (Network Attached Storage) – диски, подключенные по сети (доступ к данным осуществляется на уровне файлов, обычно по FTP, NFS или SMB) и SAN (Storage Area Network) – сети хранения данных (предоставляют блочный доступ). В крупных системах хранения данных основным типом подключения является SAN. Существует 2 метода построения SAN на основе Fibre Channel и iSCSI. Fibre Channel (FC) в основном применяется для соединения внутри одного центра обработки данных. А iSCSI представляет собой протокол передачи SCSI команд поверх IP, которые могут маршрутизироваться обычными IP маршрутизаторами. iSCSI позволяет строить гео-распределённые кластеры.

Решение СХД на базе массивов HP и коммутаторов CISCO, объём данных свыше 1 ПБ (1 петабайт).

Основными производителями устройств, применяемых для построения СХД, являются HP, IBM, EMC, Dell, Sun Microsystems и NetApp. Cisco Systems предлагает широкий выбор Fibre Channel коммутаторов, обеспечивающих связь между устройствами СХД.

Компания ЛанКей имеет большой опыт построения систем хранения данных на базе оборудования перечисленных выше производителей. При построении СХД мы сотрудничаем с производителями и строим высокопроизводительные и высоконадёжные системы хранения информации. Наши инженеры спроектируют и внедрят СХД, соответствующую специфике вашего бизнеса, а также разработают систему управления вашими данными.

Системы хранения данных с прямым подключением (DAS) реализуют самый известный тип соединения. При использовании DAS сервер имеет персональную связь с СХД и почти всегда является единоличным пользователем устройства. При этом сервер получает блочный доступ к системе хранения данных, то есть обращается непосредственно к блокам данных.

Системы хранения данных такого типа достаточно простые и обычно недорогие. Недостатком прямого способа подключения является небольшое расстояние между сервером и устройством хранения. Типичным интерфейсом DAS является SAS.

Network Attached Storage (NAS)

Сетевые системы хранения данных (NAS), также известные как файловые серверы, предоставляют свои сетевые ресурсы клиентам по сети в виде совместно используемых файлов или точек монтирования каталогов. Клиенты используют протоколы сетевого доступа к файлам, такие как SMB (ранее известный как CIFS) или NFS. Файловый сервер, в свою очередь, использует протоколы блочного доступа к своему внутреннему хранилищу для обработки запросов файлов клиентами. Так как NAS работает по сети, хранилище может быть очень далеко от клиентов. Множество сетевых систем хранения данных предоставляет дополнительные функции, такие как снятие образов хранилища, дедупликация или компрессия данных и другие.

Storage Area Network (SAN)

Сеть хранения данных (SAN) предоставляет клиентам блочный доступ к данным по сети (например, Fibre Channel или Ethernet). Устройства в SAN не принадлежат одному серверу, а могут использоваться всеми клиентами сети хранения. Возможно разделение дискового пространства на логические тома, которые выделяются отдельным хост-серверам. Эти тома не зависят от компонентов SAN и их размещения. Клиенты обращаются к хранилищу данных с использованием блочного типа доступа, как и при DAS подключении, но, так как SAN использует сеть, устройства хранения данных могут располагаться далеко от клиентов.

В настоящее время SAN архитектура используют протокол SCSI (Small Computer System Interface) для передачи и получения данных. Fibre Channel (FC) SAN инкапсулируют протокол SCSI в Fibre Channel фреймы. Сети хранения данных, использующие iSCSI (Internet SCSI) используют в качестве транспорта SCSI TCP/IP пакеты. Fibre Channel over Ethernet (FCoE) инкапсулирует протокол Fibre Channel в пакеты Ethernet, используя относительно новую технологию DCB (Data Center Bridging), которая вносит набор улучшений в традиционный Ethernet и может в настоящее время быть развернута на 10GbE инфраструктуре. Благодаря тому, что каждая из этих технологий позволяет приложениям получать доступ к хранилищу данных используя один и тот же протокол SCSI, становится возможным использовать их все в одной компании или мигрировать с одной технологии на другую. Приложения, запущенные на сервере, не могут различить FC, FCoE, iSCSI и даже отличить DAS от SAN.

Ведется множество обсуждений по поводу выбора FC или iSCSI для построения сети хранения данных. Некоторые компании фокусируются на невысокой стоимости первоначального развертывания iSCSI SAN, другие выбирают высокую надежность и доступность Fibre Channel SAN. Хотя low-end решения iSCSI дешевле, чем Fibre Channel, с ростом производительности и надежности iSCSI SAN ценовое преимущество исчезает. При этом появляются некоторые реализации FC, которые проще в использовании, чем большинство iSCSI решений. Поэтому выбор той или иной технологии зависит от бизнес-требований, существующей инфраструктуры, экспертизы и бюджета.

Большинство крупных организаций, которые используют сети хранения данных, выбирают Fibre Channel. Эти компании обычно требуют проверенную технологию, имеют необходимость в высокой пропускной способности и обладают бюджетом для покупки самого надежного и производительного оборудования. Кроме того, они располагают персоналом для управления сетью хранения данных. Некоторые из таких компаний планируют продолжать инвестиции в Fibre Channel инфраструктуру, другие же инвестируют в решения iSCSI, особенно 10GbE, для своих виртуализированных серверов.

Небольшие компании чаще выбирают iSCSI из-за низкого ценового порога входа, при этом они получают возможность для дальнейшего масштабирования SAN. Недорогие решения обычно используют технологию 1GbE; решения от 10GbE стоят существенно дороже и как правило не рассматриваются в качестве SAN начального уровня.

Unified Storage

Универсальные системы хранения данных (Unified Storage) совмещают в себе технологии NAS и SAN в едином интегрированном решении. Эти универсальные хранилища позволяют использовать как блочный, так и файловый тип доступа к общим ресурсам, кроме того, управление такими устройствами проще благодаря ПО, обеспечивающему централизованное управление.

Эволюционировали от простейших карт и лент с дырочками, использовавшихся для хранения программ и данных, до накопителей на твердом теле. На этом пути было создано множество непохожих друг на друг устройств – это и магнитные ленты, и барабаны, и диски, и оптические диски. Часть из них осталась в прошлом: это перфорированные носители, магнитные барабаны, гибкие (флоппи) диски и оптические диски, а другие живут и будут жить долго. То, что сегодня ушло, можно посмотреть и поностальгировать в музее устаревших медийных технологий Museum Of Obsolete Media . И в то же время, казалось бы обреченное, остается. В свое время предсказывали конец магнитным лентам, однако сегодня их существованию ничто не мешает, точно то же самое относится и к жестким вращающимся дискам (HDD), пророчества об их конце лишены какого-либо основания, они достигли такого уровня совершенства, что за ними сохранится их собственная ниша, невзирая ни на какие новации.

На нынешнем многоуровневом пейзаже СХД присутствуют ленточные библиотеки для резервного копирования и архивации, быстрые и медленные диски HDD, твердотельные диски SSD на флэш-памяти, мимикрирующие (интерфейсы, форм-фактор) под HDD прежде всего для согласования с существующим программным обеспечением и конструктивами, а также новейшие флэш-накопители в формате карт, подключаемых по интерфейсу NVMe. Эта картина сложилась под влиянием нескольких факторов, среди которых схема Джона фон Неймана, которая делит память на оперативную, непосредственно доступную процессору, и вторичную, предназначенную для хранения данных. Это деление укрепилось после того, как на смену сохраняющей свое текущее состояние ферритовой памяти пришла полупроводниковая, требующая загрузки программ для начала работы. И конечно же влияет удельная стоимость хранения, чем быстрее устройство, тем эта стоимость выше, поэтому в обозримом будущем останется место и для лент, и для дисков. Подробнее об эволюции СХД .

Как хранили данные раньше

Носители данных, использующие перфорацию

Перфокарты

До появления компьютеров на протяжении столетий в простейших устройствах с программным управлением (ткацкие станки, шарманки, часы-карильоны) использовали перфорированные носители самых разных форматов и размеров и барабаны со штифтами. Сохраняя этот принцип записи, Герман Холлерит, основатель компании TMC, позже вошедшей в IBM , сделал открытие. Именно, в 1890 году он осознал, как можно использовать перфокарты для записи и обработки данных. Он реализовал эту идею при обработке статистических данных, полученных в ходе переписи населения, а позже перенес ее и в другие приложения, чем обеспечил благополучие IBM на десятилетия вперед.

Почему именно карты? Их можно сортировать и к ним может быть обеспечен, условно говоря, «прямой доступ» с тем, чтобы на специальном устройстве-табуляторе, следуя несложной программе, частично автоматизировать обработку данных.

Формат карт менялся, и с 20-х годов международным стандартом стали 80-колонные карты. Монополия на них до начала 60-х принадлежала IBM.

Эти простые картонки с прямоугольными отверстиями оставались доминирующим носителем данных на протяжении нескольких десятилетий, они производились миллиардами. Об объемах потребления карт можно судить хотя бы по одному примеру Центра расшифровки немецких радиограмм в Блечли Парке: неделя работы – 2 миллиона карт, это среднего размера грузовик! Послевоенный бизнес тоже строился на хранении данных на картах. Говоря о перфокартах, следует помнить, что они использовались в Германии для сбора данных о людях, подлежащих уничтожению.

Перфоленты

Казалось бы, перфоленты – более практичные носители, но в бизнесе они практически не использовались, хотя устройства для ввода и вывода были существенно проще и легче. Их распространению мешал последовательный доступ, меньшая емкость и низкие скорости ввода и вывода, сложность архивации. Узкие 5-колонные перфоленты с 1857 года использовали для подготовки и последующей передачи данных по телеграфу, с тем чтобы не ограничить скорость ввода физическими возможностями оператора и тем самым лучше использовать пропускную способность канала. Широкие 24-колонные перфоленты были созданы для записи программ в электромеханическом калькуляторе Harvard Mark I в 1937 году. Как носитель, не подверженный воздействию разного электромагнитного и гамма-изучения, перфоленты широко использовались в качестве бортовых устройств, они до сих пор используются в некоторых оборонных системах.

Магнитные ленты

Способ записи звука на катушечный магнитный носитель, сначала на проволоку был предложен в 1928 году. Магнитофон такого типа использовался в UNIVAC-1. Началом истории компьютерных магнитных лент считается IBM Model 726, входившая в состав компьютера IBM Model 701. Ширина ленты для IBM Model 726 и других устройств того времени была равна одному дюйму, но такие ленты оказались неудобны в эксплуатации. Из-за их большой массы требовались мощные приводы, поэтому вскоре им на смену пришли полудюймовые «открытые ленты» (open reel), в которых перемотка осуществлялась с одной бобины на другую (reel-to-reel). Они имели три плотности записи 800, 1600 и 6250. Такие ленты со съемными кольцами для защиты от записи стали стандартом для архивирования данных до конца 80-х годов.

В Model 726 использовали катушки от кинопленки, соответственно ширина ленты оказалось равной одному дюйму, а диаметр бобины – 12 дюймам. Model 726 была способна сохранять 1,4 Мбайт данных, плотность 9-дорожечной записи составляла 800 бит на дюйм; при движении ленты со скоростью 75 дюймов в секунду в компьютер передавалось 7500 байт в секунду. Сама магнитная лента для Model 726 была разработана компанией 3M (теперь Imation).

Довольно скоро от дюймовых лент отказались, из-за их веса при работе в старт-стопном режиме требовались слишком мощные приводы и вакуумные карманы, и на длительный период установилось почти монопольное господство полудюймовых «открытых лент» (open reel), в которых перемотка осуществлялась с одной бобины на другую (reel-to-reel). Плотность записи повысилась с 800 до 1600 и даже 6250 бит на дюйм. Эти ленты со съемными кольцами для защиты от записи были популярны на компьютерах типа ЕС и СМ ЭВМ. полудюймовых «открытых лент» (open reel), в которых перемотка осуществлялась с одной бобины на другую (reel-to-reel). Плотность записи повысилась с 800 до 1600 и даже 6250 бит на дюйм. Эти ленты со съемными кольцами для защиты от записи были популярны на компьютерах типа ЕС и СМ ЭВМ.

Стимулом к дальнейшему развитию стало то, что в середине 80-х емкости жестких дисков стали измеряться сотнями мегабайт или даже гигабайтами поэтому для них понадобились накопители резервирования, соответствующей емкости. Неудобства открытых лент были понятны, даже в быту кассетные магнитофоны быстро вытеснили катушечные. Естественный переход к картриджам происходил двумя путями: один – создавать специализированные устройства, ориентированные на компьютеры (по линейной технологии): второй – обратиться к технологиям, изобретенным для видеозаписи и аудиозаписи с вращающимися головками (по винтовой технологии). С тех пор сложилось разделение на два лагеря, которое придает рынку накопителей неповторимую специфику.

За тридцать лет было разработано несколько десятков стандартов картриджей, наиболее распространенный сегодня стандарт LTO (Linear Tape-Open), в процессе которых картриджи совершенствовались, повышалась их надежность, емкость, скорость передачи и другие эксплуатационные характеристики. Современный картридж – это сложное устройство, снабженное процессором и флэш-памятью.

Переходу на картриджи способствовало то, что сейчас ленты работают исключительно в потоковом режиме. Картриджи используются либо в автономных устройствах, либо в составе ленточных библиотек. Первой роботизированную библиотеку на 6 тыс. картриджей выпустила компания StorageTek в 1987 году.

Аналитики и производители дисков не раз предрекали лентам кончину. Известен лозунг «Tapes must die», но они живы и будут жить долго, потому что рассчитаны на многолетнее хранение больших архивов. Размер бизнеса, связанного с производством лентопротяжек, лент и ленточных библиотек в 2017 году оценивался примерно в $5 млрд. И чем больше становятся объемы информации, которые можно сохранить на жестких дисках, тем больше потребность в архивировании и создании резервных копий. На чем? Разумеется, на лентах: экономически оправданной по стоимости хранения альтернативы магнитным лентам пока не найдено. Нынешнее 8-е поколение стандарта LTO позволяет штатно сохранить до 12 Тб, а в компрессированном режиме 30 Тб, перспективе эти цифры возрастут на порядок и более, при смене поколений повышаются не только количественные показатели, но и другие эксплуатационные характеристики.

Магнитный барабан

Временным способом для разрешения противоречий между технологией последовательной записи на ленту и необходимостью прямого доступа к данным на внешнем устройстве стал магнитный барабан, точнее цилиндр с неподвижными головками. Его изобрел австриец Густав Тучек в 1932 году

Магнитным является не барабан, у которого, как известно, рабочей поверхностью служит днище, а цилиндр с нанесенным на его боковую поверхность ферримагнитным покрытием, разделенным на дорожки, а они, в свою очередь, делятся на секторы. Над каждой из дорожек размещена собственная головка чтения/записи, причем все головки могут работать одновременно, то есть операции чтения/записи осуществляются в параллельном режиме.

Барабаны использовались не только в качестве периферийного устройства. До перехода на ферритовые сердечники оперативная память была чрезвычайно дорогой и ненадежной, поэтому в ряде случаев барабаны играли роль оперативной памяти, были даже компьютеры, называвшиеся барабанными. Обычно магнитные барабаны использовались для оперативной (часто изменяемой) или важной информации, к которой был нужен быстрый доступ. В условиях ограничений на размер оперативной памяти из-за ее дороговизны на них хранилась копия операционной системы, записывались промежуточные результаты выполнения программ. На барабанах впервые была реализована процедура свопинга, представляющая виртуализацию памяти за счет пространства на барабане, а позже и на диске.

Накопители на магнитных барабанах имели емкость меньше, чем диски, но работали быстрее, потому что в отличие от дисков в них головки неподвижны, что исключает время, требуемое для подвода к нужной дорожке.

Барабаны активно использовались вплоть до начала 80-х годов, некоторое время они жили параллельно с дисками. Барабанами комплектовалась ЭВМ БЭСМ 6 и ее современники. Из открытых источников известно, что последние барабаны простояли в системах управления ракетами Минитмэн до середины 90-х годов.

Гибкие диски

Активная жизнь гибких (floppy) дисков растянулась на 30 лет с конца семидесятых до конца девяностых. Они оказались чрезвычайно востребованными в связи тем, что ПК появились раньше, чем у пользователей появилась возможность передачи данных по сети. В этих условия флоппики служили не только по прямому назначению для хранения резервных копий, но, пожалуй, в большей степени для обмена данными между пользователями, вот почему их еще называют sneaker, как кроссовки, типичную обувь программистов. Обмениваясь флоппиками, они создавали своего рода сеть – sneakernet.

Существовало 3 основных типа дисков и множество различных модификаций. Флопии-диски диаметром 8 дюймов были созданы в 1967 году в IBM , они задумывались как устройство первоначальной загрузки (bootstrap) для мэйнфреймов IBM/370 на замену более дорогой постоянной памяти (non-volatile read-only memory), ею комплектовалось предшествующее поколение IBM/360. Однако, осознав коммерческую ценность новинки, в 1971 IBM превратила флоппи в самостоятельный продукт, а в 1973 году руководитель разработки Алан Шугарт создал компанию Shugart Associates, ставшую ведущим производителей 8-ми дюймовых дисков с максимальной емкостью 1,2 Мбайта. Эти большие диски использовали на ПК, выпускавшихся до появления IBM XT. Особую популярность этот тип дискет получил благодаря операционной системе CP/M Гарри Килдала.

Что же касается дискет с диаметром 5,25 дюйма, то их появление напоминает анекдот о Николае II, который дольно своеобразно объясняет увеличенную ширину российской железнодорожной колеи по сравнению с европейской. В нашем случае Эн Ванг, хозяин компании Wang Laboratories, встретился в баре с выходцами из Shugart Associates, которые предложили сделать для его компьютеров более дешевый дисковод, но они не могли решиться на конкретный диаметр. Тогда Ванг взял коктейльную салфетку и сказал, что ему кажется, что размер должен быть таким. Пятидюймовые диски емкостью 360 и 720 Кб выпускали до конца девяностых годов, они были современниками компьютеров IBM XT и IBM AT, операционных систем MS-DOS и DR-DOS, верно служа становлению новой отрасли.

Предложенный в 1983 году Sony альтернативный картридж имел размер 90,0 мм × 94,0 мм, но его по традиции стали называть 3,5 дюймовым. В американской профессиональной среде он зовется стиффи (stiffy disk, перевод стоит посмотреть в словаре). После ряда усовершенствований в 1987 году был принят отраслевой стандарт 3,5-inch HD (High Density) с емкостью 1,44 Мб. Поначалу такими дисками комплектовали IBM PS/2 и Macintosh IIx, а позже он стал универсальным стандартом для PC и Macintosh. Попытки сделать во второй половине девяностых диски большей емкости Extended Density (ED) 2,88 Мб, а также казавшиеся перспективными магнитооптические Floptical disk 25 Мб, SuperDisk 120-240 Мб и HiFD 150-240 Мб рыночного успеха не имели.

Почему возникла необходимость в СХД

Из проведенного исследования IDC Perspectives следует, что хранение данных занимает второе место среди расходов на ИТ и составляет примерно 23% от всех расходов. По информации The InfoPro, Wave 11 «прирост расходов на СХД в средней компании Fortune 1000 превышает 50% в год».

По общему мнению аналитиков, в организациях по всему миру ежеминутно вырастают объемы хранимой и обрабатываемой информации. Уникальная информация становится все дороже, ее объём каждый год увеличивается многократно, а её хранение требует затрат. Ввиду этого организации стремятся не только формировать развитие инфраструктуры хранения данных, но и изыскивать возможности улучшения и повышения экономической эффективности СХД: снижения энергопотребления, расходов на сервис, общей стоимости владения и закупки систем резервного копирования и хранения.

Рост объемов данных, возросшие требования к надежности хранения и быстродействию доступа к данным делают необходимым выделение средств хранения в отдельную подсистему вычислительного комплекса (ВК). Возможность доступа к данным и управления ими является необходимым условием для выполнения бизнес-процессов . Безвозвратная потеря данных подвергает бизнес серьезной опасности. Утраченные вычислительные ресурсы можно восстановить, а утраченные данные, при отсутствии грамотно спроектированной и внедренной системы резервирования , уже не подлежат восстановлению.

Происходит заметное развитие потребности не только в приобретении СХД корпоративными клиентами, но и в строгом учете, аудите и мониторинге использования дорогостоящих ресурсов. Нет ничего хуже остановки бизнес-процессов из-за невозможности своевременно получить необходимые данные (или полной их утраты), а ведь это может повлечь за собой необратимые последствия.

Факторы, способствующие развитию СХД

Основным фактором был рост конкуренции и усложнение ее характера во всех сегментах рынка. В Западной Европе эти явления можно было наблюдать и раньше, а в Восточной Европе - в последние пять лет. Пять лет назад у мобильного оператора было 25-25 млн зарегистрированных SIM-карт, а сегодня - 50-70 млн. Таким образом, мобильной связью от этих компаний обеспечен практически каждый житель страны, а ведь есть еще региональные операторы. Вот реальный уровень конкуренции: на рынке не осталось никого, кто не имел бы мобильного телефона. И теперь операторы не могут экстенсивно расти за счет продажи своих продуктов тем, у кого аналогичных продуктов еще нет. Им нужны клиенты, которые работают с конкурентами, и необходимо понять, как их получить. Надо разобраться в их поведении, в том, чего они хотят. Чтобы извлечь полезную информацию из доступных данных, необходимо поместить их в хранилище .

Еще один фактор - появление на рынке множества компаний, которые предлагают свои решения для поддержки бизнеса предприятий: ERP , биллинговые системы , системы поддержки принятия решений и т. д. Все они позволяют собирать детальные данные самого разного характера в огромных объемах. При наличии в организации развитой ИТ-инфраструктуры эти данные можно собрать вместе и проанализировать их.

Следующий фактор - технологического характера. До некоторого времени производители приложений самостоятельно разрабатывали разные версии своих решений для разных серверных платформ или предлагали открытые решения. Важной для отрасли технологической тенденцией стало создание адаптируемых платформ для решения различных аналитических задач, которые включают аппаратную составляющую и СУБД . Пользователей уже не волнует, кто сделал для их компьютера процессор или оперативную память, - они рассматривают хранилище данных как некую услугу. И это важнейший сдвиг в сознании.

Технологии, которые позволяют использовать хранилища данных для оптимизации операционных бизнес-процессов практически в реальном времени не только для высококвалифицированных аналитиков и топ-менеджеров, но и для сотрудников фронт-офиса, в частности для сотрудников офисов продаж и контактных центров. Принятие решений делегируется сотрудникам, стоящим на более низких ступенях корпоративной лестницы. Необходимые им отчеты, как правило, просты и кратки, но их требуется очень много, а время формирования должно быть невелико.

Сферы применения СХД

Традиционные хранилища данных можно встретить повсеместно. Они предназначены для формирования отчетности, помогающей разобраться с тем, что произошло в компании. Однако это первый шаг, базис.

Людям становится недостаточно знать, что произошло, им хочется понять, почему это случилось. Для этого используются инструменты бизнес-аналитики, которые помогают понять то, что говорят данные.

Вслед за этим приходит использование прошлого для предсказания будущего, построение прогностических моделей: какие клиенты останутся, а какие уйдут; какие продукты ждет успех, а какие окажутся неудачными и т.д.

Некоторые организации уже находятся на стадии, когда хранилища данных начинают использовать для понимания того, что происходит в бизнесе в настощее время. Поэтому следующий шаг - это «активация» фронтальных систем при помощи решений, основанных на анализе данных, зачастую в автоматическом режиме.

Объемы цифровой информации растут лавинообразно. В корпоративном секторе этот рост вызван, с одной стороны, ужесточением регулирования и требованием сохранять все больше информации, относящейся к ведению бизнеса. С другой стороны, ужесточение конкуренции требует все более точной и подробной информации о рынке, клиентах, их предпочтениях, заказах, действиях конкурентов и т.д .

В государственном секторе рост объемов хранимых данных поддерживает повсеместный переход к межведомственному электронному документообороту и создание ведомственных аналитических ресурсов, основой которых являются разнообразные первичные данные.

Не менее мощную волну создают и обычные пользователи, которые выкладывают в интернет свои фотографии, видеоролики и активно обмениваются мультимедийным контентом в социальных сетях.

Требования к СХД

Группа компаний ТИМ в 2008 году провела опрос среди клиентов с целью выяснить, какие характеристики наиболее важны для них при выборе СХД . На первых позициях оказались качество и функциональность предлагаемого решения. В то же время расчет совокупной стоимости владения для российского потребителя явление нетипичное. Заказчики чаще всего не до конца осознают какие их ожидают издержки, например, затраты на аренду и оснащение помещения, электроэнергию, кондиционирование, обучение и зарплату квалифицированного персонала и проч.

Когда возникает необходимость приобрести СХД, максимум, что оценивает для себя покупатель, это прямые затраты, проходящие через бухгалтерию на приобретение данного оборудования. Впрочем, цена по степени важности оказалась на девятом месте из десяти. Безусловно, заказчики учитывают возможные трудности, связанные с обслуживанием техники. Обычно их избежать помогают пакеты расширенной гарантийной поддержки, которые обычно предлагают в проектах.

Надёжность и отказоустойчивость. В СХД предусмотрено полное или частичное резервирование всех компонент – блоков питания, путей доступа, процессорных модулей, дисков, кэша и т.д. Обязательно наличие системы мониторинга и оповещения о возможных и существующих проблемах.

Доступность данных. Обеспечивается продуманными функциями сохранения целостности данных (использование технологии RAID, создание полных и мгновенных копий данных внутри дисковой стойки, реплицирование данных на удаленную СХД и т.д.) и возможностью добавления (обновления) аппаратуры и программного обеспечения в горячем режиме без остановки комплекса;

Средства управления и контроля. Управление СХД осуществляется через web-интерфейс или командную строку, есть функции мониторинга и несколько вариантов оповещения администратора о неполадках. Доступны аппаратные технологии диагностики производительности.

Производительность. Определяется числом и типом накопителей, объёмом кэш-памяти, вычислительной мощностью процессорной подсистемы, числом и типом внутренних и внешних интерфейсов, а также возможностями гибкой настройки и конфигурирования.

Масштабируемость. В СХД обычно присутствует возможность наращивания числа жёстких дисков, объёма кэш-памяти, аппаратной модернизации и расширения функционала с помощью специального ПО. Все перечисленные операции производят без значительного переконфигурирования и потерь функциональности, что позволяет экономить и гибко подходить к проектированию ИТ-инфраструктуры .

Типы СХД

Дисковые СХД

Используют для оперативной работы с данными, а также для создания промежуточных резервных копий.

Существуют следующие виды дисковых СХД :

  • СХД для рабочих данных (высокопроизводительное оборудование);
  • СХД для резервных копий (дисковые библиотеки);
  • СХД для долговременного хранения архивов (системы CAS).

Ленточные СХД

Предназначены для создания резервных копий и архивов.

Существуют следующие виды ленточных СХД :

  • отдельные накопители;
  • автозагрузчики (один накопитель и несколько слотов для лент);
  • ленточные библиотеки (более одного накопителя, множество слотов для лент).

Варианты подключений СХД

Для подключения устройств и жестких дисков внутри одного хранилища используются различные внутренние интерфейсы:

Наиболее распространенные внешние интерфейсы подключения СХД :

Популярный интерфейс межузлового кластерного взаимодействия Infiniband теперь также используется для доступа к СХД.

Варианты топологий СХД

Традиционный подход к хранилищам данных состоит в непосредственном подключении серверов к системе хранения Direct Attached Storage, DAS (Direct Attached Storage). Помимо Direct Attached Storage, DAS , существуют устройства хранения данных, подключаемые к сети, - NAS (Network Attached Storage), a также компоненты сетей хранения данных - SAN (Storage Area Networks). И NAS -, и SAN -системы появились в качестве альтернативы архитектуре Direct Attached Storage, DAS . Причем каждое решение разрабатывалось как ответ на растущие требования к системам хранения данных и основывалось на использовании доступных в то время технологиях.

Архитектуры сетевых систем хранения были разработаны в 1990-х гг., и их задачей было устранение основных недостатков систем Direct Attached Storage, DAS . В общем случае сетевые решения в области систем хранения должны были реализовать три задачи: снизить затраты и сложность управления данными, уменьшить трафик локальных сетей, повысить степень готовности данных и общую производительность. При этом архитектуры NAS и SAN решают различные аспекты общей проблемы. Результатом стало одновременное сосуществование двух сетевых архитектур, каждая из которых имеет свои преимущества и функциональные возможности.

Системы хранения прямого подключения (DAS)

Программный и аппаратный RAID

Российский рынок СХД

В последние несколько лет российский рынок СХД успешно развивается и растет. Так, в конце 2010 года выручка производителей систем хранения, проданных на российском рынке, превысила $65 млн, что по сравнению со вторым кварталом того же года больше на 25% и на 59% 2009-го. Общая емкость проданных СХД составила примерно 18 тыс. терабайт, что является показателем роста больше чем на 150% в год.

Основные этапы проектов создания хранилищ данных

Хранилище данных - очень сложный объект. Одним из основных условий для его создания является наличие грамотных специалистов, понимающих, что они делают, - не только на стороне поставщика, но и на стороне клиента. Потребление СХД становится неотъемлемой частью внедрения комплексных инфраструктурных решений. Как правило, речь идет о внушительных инвестициях на 3-5 лет, и заказчики рассчитывают, что в течение всего срока эксплуатации система в полной мере будет отвечать предъявляемым со стороны бизнеса требованиям.

Далее, необходимо обладать технологиями создания хранилищ данных. Если вы начали создавать хранилище и разрабатываете для него логическую модель, то у вас должен быть словарь, определяющий все основные понятия. Даже такие расхожие понятия, как «клиент» и «продукт», имеют сотни определений. Только получив представление о том, что означают те или иные термины в данной организации, можно определить источники необходимых данных, которые следует загрузить в хранилище.

Теперь можно приступить к созданию логической модели данных. Это критически важный этап проекта. Надо от всех участников проекта создания хранилища данных добиться согласия относительно актуальности этой модели. По завершении этой работы становится понятно, что в действительности нужно клиенту. И только потом имеет смысл говорить о технологических аспектах, например о размерах хранилища. Клиент оказывается лицом к лицу с гигантской моделью данных, которая содержит тысячи атрибутов и связей.

Необходимо постоянно помнить, что хранилище данных не должно быть игрушкой для ИТ-департамента и объектом затрат для бизнеса. И в первую очередь хранилище данных должно помогать клиентам решать их самые критичные проблемы. Например, помочь телекоммуникационным компаниям предотвратить утечку клиентов. Для решения проблемы необходимо заполнить определенные фрагменты большой модели данных, и затем помогаем выбрать приложения, которые помогут решить эту проблему. Это могут быть очень несложные приложения, скажем Excel . Первым делом стоит попытаться решить основную проблему с помощью этих инструментов. Пытаться заполнить всю модель сразу, использовать все источники данных будет большой ошибкой. Данные в источниках необходимо тщательно проанализировать, чтобы обеспечить их качество. После успешного решения одной-двух проблем первостепенной важности, в ходе которого обеспечено качество необходимых для этого источников данных, можно приступать к решению следующих проблем, постепенно заполняя другие фрагменты модели данных, а также используя заполненные ранее фрагменты.

Еще одна серьезная проблема - модернизация СХД. Зачастую СХД, приобретенная три-пять лет назад, уже не справляется с растущими объемами данных и требованиями к скорости доступа к ним, поэтому приобретается новая система, на которую переносятся данные с прежней. По сути, заказчики, повторно платят за объемы хранения, требуемые для размещения данных и, кроме того, несут расходы на установку новой СХД и перенос данных на нее. При этом прежние СХД, как правило, еще не настолько устаревшие, чтобы отказываться от них полностью, поэтому заказчики пытаются приспособить их под другие задачи.

2009

Стремительная эволюция ежегодно вносит серьезные изменения в основные тренды развития СХД . Так, в 2009 году во главу угла ставилась способность экономично распределять ресурсы (Thin Provisioning), последние несколько лет проходят под знаком работы СХД в "облаках". Спектр предлагаемых систем отличается разнообразием: огромное количество представленных моделей, различные варианты и комбинации решений от начального уровня до Hi-End класса, решения под ключ и покомпонентная сборка с применением самой современной начинки, программно-аппаратные решения от российских производителей.

Стремление к сокращению расходов на ИТ-инфраструктуру требует постоянного баланса между стоимостью ресурсов СХД и ценностью данных, которые на них хранятся в данный момент времени. Для принятия решения о том, как наиболее эффективно размещать ресурсы на программных и аппаратных средствах, специалисты ЦОД руководствуются не только подходами ILM и DLM, но и практикой многоуровнего хранения данных. Каждой единице информации, подлежащей обработке и хранению, присваиваются определенные метрики. В их числе степень доступности (скорость предоставления информации), важность (стоимость потери данных в случае аппаратного и программного сбоя), период, через который информация переходит на следующую стадию.

Пример разделения систем хранения в соответствии с требованиями к хранению и обработке информации по методике многоуровневого хранения данных.

Вместе с тем, возросли требования к производительности транзакционных систем, что предполагает увеличение количества дисков в системе и соответственно выбор СХД более высокого класса. В ответ на этот вызов производители снабдили системы хранения новыми твердотельными дисками, превосходящими прежние по производительности более чем в 500 раз на `коротких` операциях чтения-записи (характерных для транзакционных систем).

Популяризация облачной парадигмы способствовала повышению требований к производительности и надежности СХД, поскольку в случае отказа или потери данных пострадают не один-два подключенных напрямую сервера - произойдет отказ в обслуживании для всех пользователей облака. В силу той же парадигмы проявилась тенденция к объединению устройств разных производителей в федерацию. Она создает объединенный пул ресурсов, которые предоставляются по требованию с возможностью динамического перемещения приложений и данных между географически разнесенными площадками и поставщиками услуг.

Определенный сдвиг отмечен в 2011 году в области управления `Большими данными` . Раньше подобные проекты находись на стадии обсуждения, а теперь они перешли в стадию реализации, пройдя весь путь от продажи до внедрения.

На рынке намечается прорыв, который уже случился на рынке серверов, и, возможно, уже в 2012 году мы увидим в массовом сегменте СХД, поддерживающие дедупликацию и технологию Over Subscribing . В итоге, как и в случае серверной виртуализации, это обеспечит масштабную утилизацию емкости СХД.

Дальнейшее развитие оптимизации хранения будет заключаться в совершенствовании методов сжатия данных. Для неструктурированных данных, на которые приходится 80% всего объема, коэффициент сжатия может достигать нескольких порядков. Это позволит существенно снизить удельную стоимость хранения данных для современных SSD

  • Андрей Захаров, Основные системы хранения данных и их особенности
  • Журнал Upgrade4_08_05