При современном ведении бизнеса весьма важно надежно хранить значительные массивы информации, а также систематизировать, анализировать и оптимизировать ее с максимально возможной скоростью. Поэтому вся значимая документация, базы данных, рабочие проекты, образы машин виртуализации или же резервные копии с компьютеров переносятся на специальные устройства, так называемые системы хранения данных (СХД).
Дисковые системы хранения информации разнятся между собой – все зависит от количества персонала, потребностей бизнеса, требований к информации. В некоторых случаях СХД могут представлять собой маленькую коробочку на офисном столе, а в иных – это инфраструктура, которая занимает несколько стоек сервера. Значительное количество таких систем являются сетевыми хранилищами. Их обозначают как Network Attached Storage (NAS).
Сетевые хранилища обеспечивают гибкость подключения клиентов, даже посредством Интернета. Поэтому NAS будет удачным выбором для тех, кто использует работу персонала, не выходя из дома, или когда требуется предоставить доступ к информации другим филиалам фирмы.
Для SOHO (домашнего) бизнеса или небольшого офиса уместной станет двухдисковая сетевая СХД. Она защищает информацию на HDD посредством зеркалированного RAID массива, занимает мало места и функционирует совершенно бесшумно, что позволяет использовать подобные NAS даже в студии звукозаписи. Наиболее бюджетные решения от Synology, Netgear или QNAP являются оптимальными для стартапов, если требования к NAS касаются энергоэффективности, низкой стоимости, компактности и доступа к данным через сеть.
Рабочая станция с резервным копированием по расписанию, сетевой USB принтер, надежная защита жестких дисков (HDD) от выхода из строя и от несанкционированного проникновения в систему понадобится компаниям примерно с 10-20 сотрудниками. Для этого уже необходима СХД на 5-8 дисков, смонтированная в корпусе по типу «башенка».
В подобных системах хранения данных применяются процессоры Intel (минимальная частота от 1,8 ГГц). СХД поддерживают отказоустойчивые массивы RAID 5, RAID 6, RAID 10. Также имеется два порта, что позволяет подключаться к разным подсетям, организовывать сетевое подключение Fault-tolerance. Обычно в комплектацию входит также собственное программное обеспечение, предназначенное для резервирования данных.
Сетевые хранилища такого типа располагают внутренним Firewall, отличаются удобным разделением прав доступа, имеют поддержку веб-серверов, баз данных и тому подобное. С расширением бизнеса возможна установка еще нескольких NAS от того же производителя с объединением их в каскады.
Специалисты также рекомендуют обратить внимание на продукты СХД от лидеров этого сегмента рынка Synology и QNAP. Но можно и существенно сэкономить, воспользовавшись предложениями от Netgear или Thecus, которые лишь немногим по функционалу уступают NAS от упомянутых выше фирм.
Подбирая СХД для своей компании, желательно смотреть в перспективу и приобретать NAS с учетом развития бизнеса в будущем.
Резервное копирование (Back-up)
Превентивное создание дополнительных копий пользовательской информации с целью возможности последующего восстановления в случае их утраты или повреждения. Ключевыми параметрами бекапа являются: RPO - Recovery Point Objective и RTO - Recovery Time Objective.
RPO определяет точку отката -- момент времени в прошлом на который будут восстановлены данные RTO определяет время, необходимое для восстановления бекапа.
Репликация синхронная
Синхронная репликация — это зеркалирование данных на две системы хранения или два дисковых раздела внутри одной системы. Популярный RAID-1 («зеркало») для дисковых контроллеров есть по сути просто синхронная репликация на два диска, выполняемая контроллером диска. При этом каждый блок данных записывается более или менее одновременно, параллельно, на оба устройства. Аналогичным образом это осуществляется на два «диска» в разных дисковых системах хранения. Это «идеальная репликация», обе копии данных полностью идентичны, потому что пока данные не будут гарантированно записаны на оба устройства, оно не может приступить к записи следующего блока. Однако теоретическая идеальность в реальной жизни оказывается ограничением.
Общая скорость системы ограничена самым узким каналом передачи данных. Если мы соединены с системой хранения FC-каналом в 4GB/s, а система хранения синхронно реплицируется на удаленную систему по каналу в 10MB/s, то скорость обмена по FC-каналу 4GB/s будет только 10MB/s и не больше.
Репликация асинхронная
Асинхронной называют репликацию, которая осуществляется не в тот же момент, когда осуществляется запись оригинального блока данных, а в «удобное время». Это позволяет преодолеть вышеописанный недостаток синхронной репликации, поскольку процесс записи данных и процесс их переноса на «реплику» разделены и не связаны больше.
При этом сама репликация может быть осуществлена более оптимальным путем, можно провести дополнительную оптимизацию процесса, она может осуществляться по гораздо более дешевым и менее быстродействующим каналам, но копия данных, создаваемая асинхронной репликацией (в отличие от cинхронной), строго говоря, никогда не будет полностью абсолютно идентичной оригиналу, хотя и будет постоянно стремиться к этому соответствию.
Репликация полусинхронная
Вариантом, сочетающим в себе возможности синхронной и асинхронной репликации, является так называемая «semi-synchronous» репликация, или «полусинхронная». В этом случае репликация проводится синхронной до тех пор, пока это позволяет быстродействие системы или канала связи. А затем, вместо замедления и остановки операций записи, временно переключается в асинхронный режим, продолжая обрабатывать поступающие данные без задержек, отправляя данные репликации в асинхронном режиме до тех пор, пока не возникнет возможность восстановить синхронный режим.
Дедупликация
Дедупликация данных — специализированный метод сжатия массива данных, использующий в качестве алгоритма сжатия исключение дублирующих копий повторяющихся данных. Данный метод обычно используется для оптимизации использования дискового пространства систем хранения данных, однако может применяться и при сетевом обмене данных для сокращения объема передаваемой информации.
В процессе дедупликации во время анализа идентифицируются и запоминаются уникальные элементы информации фиксированного размера (англ. chunks). По мере выполнения анализа сравниваются все новые и новые элементы. При выявлении дублирующегося элемента, он заменяется ссылкой на уникальное вхождение (или на него перенаправляется уже существующая ссылка), а пространство, занимаемое дубликатом, высвобождается. Таких повторяющихся элементов может попадаться очень много, благодаря чему объём, необходимый для сохранения массива данных, может быть сильно сокращён.
Однако дедупликацию не стоит путать с более традиционными алгоритмами сжатия, например LZ77 или LZO. Эти алгоритмы производят поиск в пределах определённого буфера отдельного файла (так называемое «скользящее окно»), тогда как алгоритм дедупликации производит поиск копий по огромному массиву данных.
Проблемы и решения
Дедупликация способна сократить объём необходимого пространства для определенного набора файлов. Она наиболее эффективна в тех случаях, когда хранимые файлы мало отличимы или имеют много сходных элементов, например в случае резервных копий, где большинство данных остается неизменными с момента прошлой резервной копии. Системы резервирования могут использовать эту особенность, используя жёсткие ссылки на повторяющиеся файлы или копируя только изменённые файлы. Однако эти подходы могут оказаться мало полезными, если у большого блока данных (например, базы данных или архива почтовых сообщений) изменился только небольшой участок данных.
В передаче данных дедупликация может использоваться для сокращения передаваемой информации, что позволяет сэкономить на ширине необходимой пропускной способности канала передачи данных.
Также дедупликация находит широкое применение в системах виртуализации, где дедупликация позволяет условно выделить повторяющиеся элементы данных каждой из виртуальных систем в отдельное пространство.
Иерархическое хранение (HSM)
Перемещение (либо автоматическое перемещение в фоновом режиме) пользовательских данных между дисками и/или СХД различных классов стоимости и производительности. Так, например, наиболее востребованные пользовательские данные хранятся на быстрых (Flash, FC) дисках, либо на дисковых массивах Hi-End класса, тогда как данные, к которым давно не было обращения переносятся на более дешевые носители (SAS, SATA), СХД более низкого класса, либо даже на архивные хранилища. Примеры реализации: EMC FAST, Hitachi Tiered Storage Manager (HTSM).
Виртуализация систем хранения
Что такое Виртуализация? Для чего она нужна? Пример программно-аппаратного комплекса
Виртуализация СХД - технология при которой дисковый массив может подключаться к другому дисковому массиву таким образом, что для подключенного к нему серверу они видятся как одно единое устройство, но при этом обладающее совокупной дисковой ёмкостью и функционалом. Применяется в дисковых массивах USP-V, VSP фирмы "Hitachi Data Systems" и др. Пример комплекса: Дисковый массив USP-V подключен к серверу. К нему подключен дисковый массив более низкого класса AMS-2500, таким образом, что USP-V представляет серверу диски подключенного ("виртуализированного") устройства AMS-2500 как свои собственные. Это позволяет значительно упростить топологию CХД с точки зрения сервера, а также использовать весь функционал и производительность устройства более высокого класса USP-V за счет более дешевых носителей устройства AMS-2500.
Multipathing
Доступ к системе хранения данных по двум или более путям. Это позволяет значительно повысить отказоустойчивость и также скорость доступа к СХД. Примеры использования: EMC PowerPath, MPIO, Veritas DMP