Як вибрати СГД (NAS)?

При сучасному ведення бізнесу дуже важливо надійно зберігати значні масиви інформації, а також систематизувати, аналізувати та оптимізувати її з максимально можливою швидкістю. Тому вся значна документація, бази даних, робочі проекти, образи машин віртуалізації або резервні копії з комп'ютерів переносяться на спеціальні пристрої, так звані системи зберігання даних (СЗД).

Мережеві сховища забезпечують гнучкість підключення клієнтів, навіть за допомогою Інтернету. Тому NAS буде вдалим вибором для тих, хто використовує роботу персоналу, не виходячи з дому, або коли потрібно надати доступ до інформації іншим філіям фірми.

Для SOHO (домашнього) бізнесу або невеликого офісу доречною стане дводискова мережева СГД. Вона захищає інформацію на HDD за допомогою дзеркального RAID масиву, займає мало місця та функціонує абсолютно безшумно, що дозволяє використовувати подібні NAS навіть у студії звукозапису. Найбільш бюджетні рішення від Synology, Netgear або QNAP є оптимальними для стартапів, якщо вимоги до NAS стосуються енергоефективності, низької вартості, компактності та доступу до даних через мережу.

Робоча станція з резервним копіюванням за розкладом, мережевий USB принтер, надійний захист жорстких дисків (HDD) від виходу з ладу та несанкціонованого проникнення в систему знадобиться компаніям приблизно з 10-20 співробітниками. Для цього вже потрібна СЗД на 5-8 дисків, змонтована в корпусі за типом «башенка».

У таких системах зберігання даних застосовуються процесори Intel (мінімальна частота від 1,8 ГГц). СЗД підтримують стійкі до відмови масиви RAID 5, RAID 6, RAID 10. Також є два порти, що дозволяє підключатися до різних підмереж, організовувати мережне підключення Fault-tolerance. Зазвичай до комплектації входить також власне програмне забезпечення, призначене для резервування даних.

Мережеві сховища такого типу мають внутрішній Firewall, відрізняються зручним поділом прав доступу, мають підтримку веб-серверів, баз даних тощо. З розширенням бізнесу можливе встановлення ще кількох NAS від того ж виробника з об'єднанням їх у каскади.

Фахівці також рекомендують звернути увагу на продукти СГД від лідерів цього сегменту ринку Synology та QNAP. Але можна і суттєво заощадити, скориставшись пропозиціями від Netgear або Thecus, які лише небагатьом за функціоналом поступаються NAS від згаданих вище фірм.

Підбираючи СГД для своєї компанії, бажано дивитися в перспективу та купувати NAS з урахуванням розвитку бізнесу в майбутньому.

Резервне копіювання (Back-up)

Превентивне створення додаткових копій інформації користувача з метою можливості наступного< /span>го відновлення у разі їхньої втрати або пошкодження. Ключовими параметрами бекапа є: RPO – Recovery Point Objective та RTO – Recovery Time Objective.

RPO визначає точку відкату - момент часу в минулому на який будуть відновлені дані RTO визначає час, необхідний для відновлення бекапа.

Реплікація синхронна

Синхронна реплікація — це дзеркало даних на дві системи зберігання або два дискові розділи всередині однієї системи. Популярний RAID-1 ("дзеркало") для дискових контролерів є по суті просто синхронна реплікація на два диски, що виконується контролером диска. При цьому кожен блок даних записується більш менш одночасно, паралельно, на обидва пристрої. Аналогічно це здійснюється на два «диски» у різних дискових системах зберігання. Це «ідеальна реплікація», обидві копії даних повністю ідентичні, тому що поки дані не будуть гарантовано записані на обидва пристрої, воно не може приступити до запису наступного блоку. Проте теоретична ідеальність у реальному житті виявляється обмеженням.

Загальна швидкість системи обмежена найвужчим каналом передачі даних. Якщо ми з'єднані з системою зберігання FC-каналом в 4GB/s, а система зберігання синхронно реплікується на віддалену систему каналом в 10MB/s, то швидкість обміну FC-каналом 4GB/s буде лише 10MB/s і не більше.

Реплікація асинхронна

Асинхронною називають реплікацію, яка здійснюється не в той же момент, коли здійснюється запис оригінального блоку даних, а в «зручний час». Це дозволяє подолати вищеописаний недолік синхронної реплікації, оскільки процес запису даних та процес їх перенесення на «репліку» розділені та не пов'язані більше.

При цьому сама реплікація може бути здійснена більш оптимальним шляхом, можна провести додаткову оптимізацію процесу, вона може здійснюватися набагато дешевшими і менш швидкодіючими каналами, але копія даних, створювана асинхронною реплікацією (на відміну від синхронної), строго кажучи, ніколи не буде повністю абсолютно ідентичною до оригіналу, хоча й постійно прагнутиме до цієї відповідності.

Реплікація напівсинхронна

Варіантом, що поєднує в собі можливості синхронної та асинхронної реплікації, є так звана «semi-synchronous» реплікація, або «напівсинхронна». У цьому випадку реплікація проводиться синхронною доти, доки це дозволяє швидкодію системи або каналу зв'язку. А потім, замість уповільнення та зупинення операцій запису, тимчасово перемикається в асинхронний режим, продовжуючи обробляти дані без затримок, відправляючи дані реплікації в асинхронному режимі доти, доки не з'явиться можливість відновити синхронний режим.

Дедуплікація

Дедуплікація даних — спеціалізований метод стиснення масиву даних, що використовує як алгоритм стиснення виключення дублюючих копій даних, що повторюються. Цей метод зазвичай використовується для оптимізації використання дискового простору систем зберігання даних, проте може застосовуватися і при мережному обміні даних для скорочення обсягу інформації, що передається.

У процесі дедуплікації під час аналізу ідентифікуються та запам'ятовуються унікальні елементи інформації фіксованого розміру (англ. chunks). У міру виконання аналізу порівнюються нові і нові елементи. При виявленні елемента, що дублюється, він замінюється посиланням на унікальне входження (або на нього перенаправляється вже існуюче посилання), а простір, що займається дублікатом, вивільняється. Таких елементів, що повторюються, може траплятися дуже багато, завдяки чому обсяг, необхідний для збереження масиву даних, може бути сильно скорочений.

Але дедуплікацію не варто плутати з більш традиційними алгоритмами стиснення, наприклад LZ77 або LZO. Ці алгоритми проводять пошук у межах певного буфера окремого файлу (так зване «ковзне вікно»), тоді як алгоритм дедуплікації здійснює пошук копій за величезним масивом даних.

Проблеми та рішення

Дедуплікація здатна скоротити обсяг необхідного простору для певного набору файлів. Вона найбільш ефективна в тих випадках, коли файли, що зберігаються, мало відмінні або мають багато подібних елементів, наприклад у випадку резервних копій, де більшість даних залишається незмінними з моменту минулої резервної копії. Системи резервування можуть використовувати цю особливість, використовуючи жорсткі посилання на файли, що повторюються, або копіюючи тільки змінені файли. Однак ці підходи можуть виявитися мало корисними, якщо у великого блоку даних (наприклад, бази даних або архіву поштових повідомлень) змінилася лише невелика ділянка даних.

У передачі даних дедуплікація може використовуватися для скорочення інформації, що передається, що дозволяє заощадити на ширині необхідної пропускної спроможності каналу передачі даних.

Також дедуплікація знаходить широке застосування в системах віртуалізації, де дедуплікація дозволяє умовно виділити повторювані елементи даних кожної з віртуальних систем в окремий простір.

Ієрархічне зберігання (HSM)

Переміщення (або автоматичне переміщення у фоновому режимі) даних користувача між дисками та/або СГД різних класів вартості та продуктивності. Так, наприклад, найбільш затребувані дані користувача зберігаються на швидких (Flash, FC) дисках, або на дискових масивах Hi-End класу, тоді як дані, до яких давно не було звернення переносяться на більш дешеві носії (SAS, SATA), СЗД більше низького класу, і навіть архівні сховища. Приклади реалізації: EMC FAST, Hitachi Tiered Storage Manager (HTSM).

Віртуалізація систем зберігання

Що таке віртуалізація? Навіщо вона потрібна? Приклад програмно-апаратного комплексу

Віртуалізація СГД - технологія при якій дисковий масив може підключатися до іншого дискового масиву таким чином, що для підключеного до нього серверу вони бачаться як один єдиний пристрій, але при цьому володіє сукупною дисковою ємністю і функціоналом. Застосовується у дискових масивах USP-V, VSP фірми "Hitachi Data Systems" та ін. Приклад комплексу: Дисковий масив USP-V підключений до сервера. До нього підключений дисковий масив нижчого класу AMS-2500, таким чином, що USP-V представляє серверу диски підключеного ("віртуалізованого") пристрою AMS-2500 як власні. Це дозволяє значно спростити топологію CХД з точки зору сервера, а також використовувати весь функціонал та продуктивність пристрою вищого класу USP-V за рахунок дешевших носіїв пристрою AMS-2500.

Multipathing

Доступ до системи зберігання даних по двох або більше шляхах. Це дозволяє значно підвищити відмовостійкість і швидкість доступу до СЗД. Приклади використання: EMC PowerPath, MPIO, Veritas DMP