NetApp: Tech OnTap Logo NetApp
NetApp: Tech OnTap
     
Operazioni senza interruzioni con Clustered Data ONTAP
Charlotte Brooks
Technical Marketing Engineer

Il passaggio a infrastrutture condivise ha reso praticamente impossibile pianificare i downtime per la manutenzione di routine. Un singolo sistema storage potrebbe essere virtualizzato in svariate applicazioni, varie parti interessate o diversi gruppi di utenti ed è per questo che la programmazione di una finestra di downtime, quando possibile, richiede molto tempo e scontenta tutti. Inoltre, il processo di upgrade e sostituzione delle apparecchiature al termine del loro ciclo di vita, anche se con un'interruzione minima, richiede tempo e una pianificazione molto complessa.

Il sistema operativo NetApp® Clustered Data ONTAP® è progettato per eliminare i downtime pianificati per le operazioni di manutenzione e relative al ciclo di vita, oltre ai downtime non pianificati dovuti a guasti hardware e software. L'obiettivo di NetApp è permettere alla tua infrastruttura storage di essere totalmente disponibile e resiliente in qualsiasi momento, senza downtime. Riteniamo che i dati debbano essere consegnati con la stessa affidabilità di qualsiasi altra utility. Se giri la manopola del rubinetto, ti aspetti che esca acqua.

Le operazioni senza interruzioni garantite da NetApp proteggono la tua infrastruttura da downtime pianificati e non pianificati, semplificando enormemente le operazioni di manutenzione e relative al ciclo di vita.

Figura 1) Le operazioni senza interruzioni garantite da NetApp proteggono la tua infrastruttura da downtime pianificati e non pianificati, semplificando enormemente le operazioni di manutenzione e relative al ciclo di vita.

Le nostre funzioni di mobilità di dati e rete permettono di compiere operazioni di manutenzione e relative al ciclo di vita senza alcun downtime. I vantaggi ottenuti grazie a operazioni senza interruzioni sono significativi e molti di essi riguardano direttamente i ricavi:

  • Maggiore rapidità nelle operazioni di implementazione di nuovo hardware e/o upgrade di software. Hai mai ricevuto nuovo hardware per poi tenerlo in magazzino o in corridoio per mesi in attesa dell'upgrade per il downtime? Il ritorno sull'investimento è davvero minimo. Grazie alle operazioni senza interruzioni, l'attesa fa ormai parte del passato.
  • Maggiore utilizzo. Con la possibilità di aggiungere nuova capacità quando lo desideri senza dover attendere il downtime, potrai spingere il tuo cluster NetApp a livelli di utilizzo più elevati. Non dovrai più mantenere una grande rete di sicurezza sotto forma di capacità storage inattiva.
  • Operazioni più semplici. Il downtime pianificato implica spesso molto tempo per portare offline le applicazioni in funzione. Al termine della manutenzione, devi riavviare le applicazioni e verificare che funzionino ancora correttamente. Le operazioni senza interruzioni ti permettono di dedicarti alle attività legate allo storage senza tale complessità. I tool NetApp per operazioni senza interruzioni sono semplici da utilizzare e progettati per essere usati ripetutamente, in base alle esigenze, senza particolari sforzi.

In questo articolo, forniremo informazioni approfondite sui tool offerti da NetApp per garantire operazioni senza interruzioni e prenderemo in esame il modo in cui queste funzionalità possono essere utilizzate per svolgere importanti attività di manutenzione e legate al ciclo di vita.

Tool necessari

Grazie alla sua resilienza ai guasti, Clustered Data ONTAP garantisce operazioni senza interruzioni e, permettendoti di sostituire la tua infrastruttura storage senza interruzioni, semplifica le operazioni di tutti i giorni e la manutenzione. Questo è possibile perché, invece di accedere direttamente alle risorse fisiche, Clustered Data ONTAP accede ai dati attraverso un costrutto logico detto SVM (Storage Virtual Machine). Di conseguenza, è possibile che le risorse fisiche utilizzate da una SVM cambino senza bisogno di modifiche lato client o lato host oppure senza interruzioni.

Le SVM di Clustered Data ONTAP accedono ai dati dall'hardware fisico per ottenere una maggiore flessibilità.

Figura 2) Le SVM di Clustered Data ONTAP accedono ai dati dall'hardware fisico per ottenere una maggiore flessibilità.

Questo è possibile grazie a tre tool standard:

  • DataMotion™ per volumi (spostamento di volumi). Consente di spostare volumi di dati da un aggregato a un altro, sullo stesso nodo cluster o su uno diverso.
  • Migrazione LIF. Le interfacce logiche (LIF, Logical Interface) virtualizzano le interfacce fisiche in Clustered Data ONTAP. La migrazione LIF ti permette di spostare le interfacce LIF da una porta di rete a un'altra, sullo stesso nodo cluster o su uno diverso.
  • Ricollocazione degli aggregati (ARL, Aggregate Relocate). Ti permette di trasferire aggregati completi tra due controller in una coppia ad alta disponibilità, senza spostamento di dati.

Questi tool, che possono essere utilizzati singolarmente e in combinazione, ti permettono di realizzare una gamma completa di operazioni senza interruzioni, dal trasferimento di un volume da un disco più veloce a uno più lento, fino a un aggiornamento completo della tecnologia di controller e storage.

DataMotion per volumi

DataMotion per volumi (spesso chiamato spostamento di volumi) consente di spostare un volume all'interno di una SVM da un aggregato (origine) a un altro (destinazione). La destinazione può essere sullo stesso nodo o su qualsiasi altro nodo del cluster. Indipendentemente da dove vengono spostati i dati e dal protocollo dati offerto (SAN o NAS), l'accesso ai dati viene preservato in modo trasparente prima, durante e dopo lo spostamento per applicazioni client/host.

Il processo di spostamento dei volumi prevede quattro fasi. Una volta iniziato, lo spostamento progredisce automaticamente, tuttavia è importante comprenderne ogni fase e le attività di base.

  • Fase di convalida. Verifica che lo spostamento di volumi richiesto sia possibile, controllando la capacità disponibile sull'aggregato di destinazione, oltre ad altri requisiti.
  • Fase di configurazione. Viene creato un nuovo volume sull'aggregato di destinazione.
  • Fase iterativa. I dati vengono replicati da un volume di origine al volume di destinazione, replicando gruppi di copie Snapshot™ sulla rete del cluster. In seguito a ogni iterazione, viene verificato il delta tra origine e destinazione per valutare se è abbastanza ridotto da consentire di completare una replica finale entro il tempo definito per la fase di cutover. Questa fase non interessa le operazioni di I/O da client e host verso il volume di origine.
  • Fase di cutover. Ogni accesso alle operazioni di I/O viene inserito in coda e le richieste inviate al volume di origine sono bloccate. Il trasferimento della replica finale viene completato e il database del volume viene aggiornato con le nuove informazioni del volume. Le operazioni di I/O in coda vengono quindi ripristinate sul volume nella nuova posizione. Il cutover termina con un "periodo di cutover" predefinito, cioè una finestra temporale accettabile per l'applicazione client/host.

Se il cutover non termina entro il periodo specificato, la fase di cutover viene interrotta e l'accesso ai dati riprende sul volume di origine. Ogni richiesta in sospeso inserita in coda durante il tentativo di cutover viene completata e la fase di iterazione viene ripristinata finché sussistono le condizioni per ritentare un cutover.

La finestra di cutover può essere compresa tra 30 e 300 secondi; il valore predefinito è 45 secondi. Dato che si tratta della parte più critica del processo, lo spostamento di volumi concede all'utente buona parte del controllo sulla fase di cutover. Ad esempio, potrai realizzare l'operazione in modo che il cutover non si verifichi finché non sarai tu ad attivarlo. Questo ti permette di completare il cutover quando preferisci.

Migrazione LIF

La migrazione LIF conferisce all'utente la stessa capacità di spostare collegamenti di rete offerta dallo spostamento di volumi per i volumi di dati. Una LIF è un'interfaccia di rete logica che virtualizza i collegamenti di rete SAN e NAS. Le LIF sono legate a una SVM e mappate su porte di rete fisiche, gruppi di interfacce o, in caso di tagging, VLAN sul controller. Dato che le LIF sono virtualizzate, l'indirizzo di una LIF rimane lo stesso anche quando la LIF viene migrata a un'altra porta fisica dello stesso nodo o di un nodo diverso del cluster. Se uno dei nodi del cluster si arresta, si verifica il failover automatico delle interfacce LIF di NAS, congiuntamente al failover storage nella coppia ad alta disponibilità per preservare l'accesso ai dati. Un'interfaccia LIF può anche essere migrata manualmente a un'altra porta.

Ogni nodo del cluster è in grado di supportare un massimo di 262 LIF, 6 delle quali sono riservate alle funzioni di gestione e del cluster. Le interfacce LIF dati vengono utilizzate per fornire dati a client e host e sono progettate come SAN o NAS. Alle interfacce LIF (NAS o iSCSI) basate su IP sono assegnati indirizzi IP, mentre alle interfacce LIF basate su FC sono assegnati nomi WWPN. Ogni SVM richiede almeno un'interfaccia LIF dati. Durante il normale funzionamento, devi limitare il numero di interfacce LIF dati per nodo a 128 o a una quantità inferiore. In questo modo, in caso di failover di una coppia ad alta disponibilità, il limite sul nodo partner non sarà superato, anche se sono richieste tutte le interfacce LIF del nodo in errore.

Oltre alle interfacce LIF dati, esistono interfacce LIF di gestione per l'accesso al cluster tramite CLI o OnCommand® System Manager e interfacce LIF inter-cluster per la rete di interconnessione tra cluster.

La migrazione LIF ti permette di passare a un'interfaccia LIF basata su IP da una porta fisica o gruppo di interfacce all'altra/o. Le interfacce LIF dati SAN (tra cui iSCSI) non devono essere migrate e non subiscono failover. I processi ALUA e MPIO sugli host con initiator vengono invece utilizzati per ottimizzare i percorsi e gestire gli errori di percorso.

La migrazione LIF può essere utilizzata per spostare tutte le interfacce LIF dati (e pertanto tutto il traffico di rete) da un nodo specifico, in modo da realizzare operazioni di manutenzione o sostituzione dell'hardware. Un altro caso di utilizzo della migrazione LIF è legato alla capacità di effettuare upgrade senza interruzioni da un cluster senza switch a 2 nodi entry-level (una novità di Clustered Data ONTAP 8.2) in un cluster con switch a 2 nodi. La migrazione LIF ti permette di spostare le interfacce LIF di interconnessione tra cluster in modo da introdurre lo switch senza interrompere il flusso di dati. Una volta aggiunto lo switch, potrai espandere il cluster in base alle tue esigenze, creando configurazioni più grandi.

La migrazione LIF può essere utilizzata anche per spostare un'interfaccia LIF su una porta diversa dello stesso nodo. Ad esempio, un'interfaccia LIF potrebbe essere configurata su una porta GbE. Se l'interfaccia LIF in questione richiede maggiore larghezza di banda, puoi spostarla temporaneamente o in via definitiva su una porta 10GbE dello stesso nodo.

Per ulteriori informazioni sulle interfacce LIF e su altri argomenti di networking relativi a Clustered Data ONTAP, consulta il documento TR-4182: Best Practices for Clustered Data ONTAP Network Configurations.

Ricollocazione degli aggregati

La ricollocazione degli aggregati è una nuova funzionalità introdotta in Clustered Data ONTAP 8.2. Poiché tutti i nodi del cluster di Clustered Data ONTAP fanno parte di una coppia ad alta disponibilità (eccetto i cluster a nodo singolo), la ricollocazione degli aggregati consente di trasferire temporaneamente la proprietà da un controller della coppia ad alta disponibilità all'altro, per facilitare il processo di upgrade senza spostare i dati.

Con ARL, puoi eseguire gli upgrade dei controller in molto meno tempo rispetto a quanto richiesto per migrare i dati ad altri controller, eseguire l'upgrade dei controller e spostare i dati nuovamente al loro posto. Nel recente articolo di Tech OnTap® Novità di Clustered Data ONTAP 8.2, Julian Cates ha discusso i dettagli della ricollocazione degli aggregati, descrivendone il funzionamento e le best practice per l'utilizzo.

Esecuzione delle attività di manutenzione e legate al ciclo di vita

Ora che conosci i tool di base, esaminiamo come possono essere utilizzati per svolgere le attività di manutenzione e legate al ciclo di vita. Nella Tabella 1 è riportata una sintesi di molte di queste attività e vengono descritti i vantaggi legati alla possibilità di realizzarle senza interruzioni.

Tabella 1) Esempi di operazioni senza interruzioni relative alla manutenzione e al ciclo di vita.

Operazione legata al ciclo di vitaVantaggio
  • Ribilanciamento delle performance del controller, del disco e/o della capacità e del relativo utilizzo
  • Capex inferiori (spesa anticipata)
  • Migliore gestione del ciclo di vita
  • Eliminazione degli hotspot (migliori performance, minori rischi di interruzioni non programmate)
  • Aggiunta di storage controller o shelf di dischi
  • Aggiunta di hardware ai controller
  • Aumento di performance e densità
  • Miglioramento della resilienza
  • Upgrade di storage controller, shelf di dischi, switch di cluster
  • Nessun aggiornamento con interruzioni
Operazione di manutenzione 
  • Upgrade del software storage
  • Utilizzo più rapido delle nuove funzioni
  • Upgrade di sistema, disco, switch e firmware
  • Eliminazione dei potenziali rischi
  • Sostituzione di un controller (o di uno dei suoi componenti) con errori, ad esempio schede NIC, HBA e componenti storage guasti quali cavi, dischi, moduli di I/O
  • Riduzione delle spese amministrative

Attività di manutenzione

Molti dei dati memorizzati sopravvivono più a lungo del sistema storage in cui si trovano. Nel tempo, il software dovrà essere aggiornato e l'hardware sostituito o riparato.

Aggiornamento di software e firmware

L'upgrade senza interruzioni (NDU, Nondisruptive Upgrade) include l'upgrade del software e del firmware del sistema storage. NDU è una soluzione completa per eseguire l'upgrade di:

  • Software del sistema operativo (Data ONTAP)
  • Firmware del sistema operativo (BIOS)
  • Firmware dello shelf
  • Firmware del disco
  • Firmware del percorso di controllo alternativo (ACP, Alternate Control Path)

Queste attività vengono svolte tutte in modo tale che le interruzioni delle operazioni di I/O siano brevi. Le applicazioni continuano a funzionare senza bisogno di avvisare l'utente o senza richiedere complicate pianificazioni di downtime. Il takeover e il giveback storage (che utilizzano ARL) insieme alla migrazione LIF ti permettono di effettuare le operazioni di manutenzione su un controller della coppia ad alta disponibilità per volta, senza interrompere i servizi dati. Per pianificare gli upgrade senza interruzioni, puoi utilizzare il tool Upgrade Advisor di My AutoSupport™ (sono richieste le credenziali di accesso al sito NetApp Support). Questo tool genera un elenco completo delle fasi richieste per completare l'upgrade dell'intero cluster.

Prima di Clustered Data ONTAP 8.2, gli upgrade del sistema operativo dovevano essere svolti utilizzando il processo di "upgrade continuo", che aggiornava una coppia ad alta disponibilità per volta. Nei cluster di grandi dimensioni, questo processo richiedeva molto tempo. A partire da Clustered Data ONTAP 8.2, potrai effettuare gli upgrade in batch anche su cluster con 8 o più nodi. In questo modo, si riduce il tempo richiesto per portare a compimento un upgrade su cluster di grandi dimensioni. L'upgrade in batch consente di eseguire l'upgrade su diversi nodi in parallelo, riducendo il tempo totale necessario per aggiornare l'intero cluster. Un cluster può eseguire due versioni diverse di Clustered Data ONTAP mentre è in corso un upgrade, tuttavia la best practice consiste nel ridurre al minimo il tempo di esecuzione di un cluster in modalità mista. L'upgrade in batch agevola l'impiego di questa best practice.

Riparazione e sostituzione dell'hardware

Le operazioni senza interruzioni supportano la riparazione o la sostituzione senza interruzioni dei componenti hardware nel sistema storage secondario, che può spaziare da unità disco e cavi a controller e shelf. Le unità disco sono protette da RAID e possono essere riparate e sostituite seguendo procedure standard, di solito senza bisogno di utilizzare i tool descritti in precedenza. Molti componenti ridondanti, come i cavi, possono anche essere sostituiti dopo un guasto senza utilizzare questi tool.

Completamento di operazioni legate al ciclo di vita

Le operazioni legate al ciclo di vita includono attività per bilanciare e ottimizzare capacità e/o performance, oltre a operazioni per espandere o aggiornare la tecnologia nel cluster. Un'infrastruttura Clustered Data ONTAP è flessibile e resiliente alle molteplici modifiche necessarie che si verificano dopo anni di costante funzionamento.

Indipendentemente dalla qualità della pianificazione, è inevitabile che in alcune situazioni la capacità degli aggregati sia insufficiente, mentre in altre lo spazio sia in eccesso. Questo tipo di squilibrio di capacità può essere corretto con estrema facilità grazie allo spostamento di volumi, trasferendoli da aggregati affollati a quelli con spazio disponibile.

Gli squilibri nelle performance possono essere gestiti in modo simile. I volumi che richiedono performance maggiori possono essere spostati su un controller con maggiore capacità (in un cluster misto), su un controller con meno carico o su un supporto più veloce. Ad esempio, puoi spostare un volume che richiede performance maggiori da un aggregato di dischi ad alta capacità a uno composto da dischi per le performance oppure su un controller contenente un aggregato Flash Cache™ o Flash Pool™ che combina SSD e HDD. Al contrario, se tali requisiti di performance di un dataset diminuiscono, potrai spostare il volume o i volumi associati su un aggregato composto da dischi ad alta capacità.

Per gli amministratori di Clustered Data ONTAP, lo spostamento dei volumi è un'operazione standard, che non richiede sforzi eccessivi e, generalmente, non necessita di richieste di modifica. Lo spostamento dei volumi permette al team IT di raggiungere i suoi obiettivi in termini di capacità e performance e ottimizzare le operazioni senza sforare il budget, grazie alla possibilità di trasferire facilmente i dati sulla classe storage adeguata per i requisiti applicativi, piuttosto che dover sfruttare il provisioning e implementare tutto su unità più costose e ad alte performance.

Aggiornamento tecnologico

La "ciliegina sulla torta" per quanto riguarda le operazioni senza interruzioni NetApp è la capacità di eseguire un aggiornamento completo della tecnologia senza alcuna interruzione. Il processo di sostituzione dell'hardware storage richiede da sempre interruzioni ed è dispendioso in termini di tempo e denaro. Un recente studio rivela infatti che la migrazione dei dati da uno storage array obsoleto a uno nuovo richiede in media 5 mesi e aggiunge quasi il 50% al costo legato al possesso di un array.

Clustered Data ONTAP ti permette di effettuare aggiornamenti completi dell'hardware in modo semplice e veloce, senza portare i dati offline, evitando pertanto tali costi nascosti. I sistemi storage in cluster non devono necessariamente essere della stessa generazione o dello stesso modello, quindi è possibile sostituire una piattaforma FAS con un'altra o cambiare l'intera infrastruttura storage, senza interrompere le applicazioni in esecuzione o gli utenti impegnati. Nessun altro storage è in grado di offrire questa possibilità.

Puoi utilizzare ARL per effettuare un rapido e comodo upgrade degli storage controller esistenti oppure eseguire upgrade completi (che includono anche unità e shelf) utilizzando lo spostamento di volumi. In quest'ultimo caso, il sistema viene generalmente aggiunto al cluster e i dati vengono spostati dal sistema precedente a quello nuovo prima che il sistema più vecchio venga rimosso dal servizio.

Questa non è un'opzione possibile solo a livello teorico: molte volte sono già stati realizzati aggiornamenti tecnologici completi. Ad esempio, un utente con Clustered Data ONTAP è passato senza alcuna interruzione da un cluster di oltre 20 FAS6080 a 16 FAS6280, ciascuno con 512 GB di storage Flash Cache. La capacità totale prima e dopo l'aggiornamento è rimasta di circa 1 petabyte.

La transizione è avvenuta lavorando in set di quattro nodi. Il team IT ha aggiunto quattro nuovi nodi e ha spostato i volumi da quattro dei nodi precedenti ai nuovi nodi. Ha arrestato poi i nodi precedenti e trasferito ogni shelf di dischi ancora supportato (alcuni di questi hardware erano talmente obsoleti da dover essere ritirati dal servizio) sul set successivo di nuovi nodi.

Gli utenti hanno sperimentato un aumento significativo nel throughput e nelle performance percepite, mentre l'upgrade ha ridotto i normali costi legati alle operazioni di manutenzione. Ma la cosa più importante è che l'intero processo si è svolto senza downtime. La disponibilità di ARL renderebbe questo tipo di upgrade ancora più semplice e più veloce rispetto al momento in cui è stato eseguito l'upgrade. Alcuni precursori hanno già sfruttato ARL per aggiornare interi cluster in un evento di 1 giorno, senza bisogno di migrazioni dei dati o downtime.

Conclusioni

Clustered Data ONTAP porta le operazioni senza interruzioni a un nuovo livello. Pochi semplici tool (spostamento di volumi, migrazione LIF e ricollocazione degli aggregati) permettono di eseguire in modo semplice e rapido operazioni di manutenzione e legate al ciclo di vita che in precedenza non erano possibili senza downtime pianificati e interruzioni significative. La possibilità di eseguire queste attività quando necessario, invece di attendere le rare finestre di downtime, indica che il tuo ambiente storage è ottimizzato e i rischi sono enormemente ridotti.

 Cosa ne pensi delle operazioni senza interruzioni?

Nelle community online di NetApp puoi porre domande, scambiare idee e condividere commenti.

Articolo di Charlotte Brooks, Technical Marketing Engineer

Charlotte è TME per Clustered Data ONTAP. In oltre 5 anni di lavoro per NetApp, ha scritto e presentato numerosi documenti su argomenti relativi a Clustered Data ONTAP e alla gestione storage. Al momento, si occupa di operazioni e upgrade senza interruzioni.

Tech OnTap
Iscriviti subito
Tech OnTap presenta ogni mese approfondimenti sull'IT, best practice basate su esperienze reali, suggerimenti e tool, interviste "dietro le quinte" con gli esperti, demo, recensioni degli utenti e molto altro ancora.

Per iscriverti subito, visita la sezione Tech OnTap della community NetApp.

Esplora
Esplora
Scopri di più su Clustered Data ONTAP 8.2 e sulle operazioni senza interruzioni

Qualora te lo fossi perso, ti ricordiamo che lo scorso mese il TME NetApp Julian Cates ha illustrato le nuove funzionalità della versione 8.2 ed è sceso nei dettagli di argomenti come la ricollocazione degli aggregati, la qualità del servizio e le ottimizzazioni di Microsoft® Windows®. Leggi questo articolo, oltre al nuovo white paper (in inglese) che analizza i vantaggi commerciali legati a operazioni senza interruzioni, efficienza e scalabilità.

Esplora
 
TRUSTe
Contatti   |   Come acquistare   |   Commenti   |   Opportunità di lavoro  |   Iscrizioni   |    Direttiva sulla privacy   |    © 2013 NetApp.