SSD e dati SMART

L’acronimo SMART sta per “Self-monitoring, Analysis, and Reporting Technology” (tecnologia di analisi e report automonitorata). Come suggerisce il nome, si tratta di uno strumento che registra i dati sullo stato di un disco rigido (HDD) o di un’unità a stato solido (SSD). I dati SMART possono essere uno strumento prezioso per avvertire precocemente in caso di problemi all’unità o di fine vita utile della stessa, offrendo la possibilità di sostituirla prima che si verifichi un guasto.

La segnalazione semplice a un utente o a un amministratore di sistema è importante perché l’unità stessa non è in grado di effettuare un’analisi approfondita dei dati. L’unità può solo riportare se determinati attributi abbiano superato le soglie predefinite e questo solo se nel firmware sono state programmate delle soglie.

SMART è presente da molti anni e precede la nascita dell’SSD. Inizialmente, SMART era implementata sugli HDD, in seguito è stata adattata agli SSD quando questi hanno sostituito i dischi rigidi rotanti. Sfortunatamente, indipendentemente dalla tecnologia di archiviazione, non vi è uno standard di settore che prescriva quale attributo numerato SMART descriva una specifica proprietà fisica di un’unità. I descrittori dell’attributo variano tra SSD e HDD e anche tra i vari fornitori di SSD.

Vi sono numerose utilità di terze parti che possono recuperare e riportare i dati SMART di un’unità, spesso disponibili nei freeware e negli shareware. Tuttavia, nonostante il software di terze parti consulti il fornitore dell’unità circa gli attributi SMART corretti, le loro definizioni e soglie (se applicabili) tendono ad etichettare in modo errato gli attributi provocando falsi positivi o falsi negativi nei report di guasto.

Abbiamo visto esempi in cui l’attributo “Conteggio delle ore di accensione” riporta un numero all’utilità, e un’utilità incompatibile potrebbe erroneamente etichettare il numero come “Conteggio di guasti del programma” oppure “Errori segnalati non correggibili”. Ancor peggio, l’utilità di terze parti potrebbe avere soglie di guasto inappropriate per l’SSD in questione, nel qual caso l’utilità SMART riporterebbe un guasto in un punto noto al produttore come operazione accettabile.

A causa di questa potenziale confusione, Crucial raccomanda di usare esclusivamente il nostro software Storage Executive come strumento accurato di recupero e analisi dei dati SMART sulle SSD Crucial. Storage Executive sarà sempre programmato con le descrizioni e le soglie attributo corrette (se applicabili) per tutte le versioni, tranne la più vecchia, delle SSD Crucial.

Descrizioni degli attributi SMART definiti da Crucial

Gli SSD Crucial contengono diversi attributi per il recupero da parte di Storage Executive. Alcuni attributi riportano informazioni critiche sull’SSD, mentre altri sono solo informativi.

In questa sede parleremo dei più importanti; quando l’attributo è nominato diversamente per SATA e PCIe verranno menzionati entrambi i nomi:

Attributo 202: Percentuale di vita rimanente (percentuale di vita usata su PCIe)

Questo attributo corrisponde esattamente a quanto indicato dal suo nome. È la misura di quanta vita utile progettata per l’unità è rimasta in un dato momento. Quando l’SSD è nuovo, l’attributo 202 riporterà “100” e quando la sua vita utile specificata è stata raggiunta, mostrerà “0,” indicando che rimane lo 0% della sua vita utile.

Tuttavia, è importante comprendere cosa significhi usare la vita utile progettata: non si intende che l’unità sarà guasta quando il contatore raggiungerà lo zero, ma solo che l’SSD va sostituito al più presto.

La vita utile di un dispositivo flash NAND è definita da un’altra caratteristica: la conservazione dei dati. La conservazione dei dati è la quantità di tempo per cui il dispositivo può archiviare e successivamente recuperare in modo sicuro i dati dell’utente in assenza di alimentazione. Quando un SSD o un altro dispositivo flash NAND è nuovo, la conservazione dei dati in assenza di alimentazione corrisponde a diversi anni. Tuttavia, proprio come la memoria umana, essa si riduce con il tempo e l’usura provocata dalla scrittura dei dati (le letture dei dati non causano direttamente usura).

Il Joint Electron Device Engineering Council (JEDEC) è il gruppo industriale che crea standard e specifiche per dispositivi e assemblati basati su semiconduttori. Micron è tra i membri principali di JEDEC, che definisce la conservazione dei dati in un modo specifico: Per gli SSD nelle applicazioni dei clienti (come pc o computer aziendali), la conservazione dei dati in assenza di alimentazione a una temperatura di 30 °C (86 °F) corrisponde a un anno. Ciò dovrebbe fornire alla maggior parte degli utenti il tempo sufficiente per recuperare qualsiasi dato da un’unità inutilizzata dopo un periodo di inattività, se necessario.

Da questa descrizione si potrebbe affermare che l’SSD funzioni abbastanza bene durante il conto alla rovescia della vita utile a partire da 100 per cento. Tuttavia, con il passare del tempo, la conservazione dei dati continuerà a degradare, da un anno a 6 mesi, poi a 3 mesi e così via. Possibilmente, molto tempo dopo la vita garantita dell’unità, qualsiasi nuova scrittura non potrebbe essere conservata in assenza di alimentazione.

Tuttavia, il firmware dell’SSD ne tiene conto. Man mano che l’SSD invecchia, l’Error Correction Code (ECC), i tentativi di lettura, i parametri di lettura adattivi, la manutenzione dei dati di background e altre funzioni di riparazione del firmware possono correggere i problemi derivanti dalla graduale degradazione della conservazione dei dati. Man mano che i dati NAND bloccano la degradazione, essi possono essere sostituiti da ricambi interni e il funzionamento può continuare normalmente. Naturalmente, tutte queste operazioni di background hanno luogo in presenza di alimentazione, ecco perché la conservazione dei dati viene definita in uno stato di assenza di alimentazione.

Questo attributo viene presentato anche come “Percentuale di vita usata” su alcuni SSD Crucial legacy, nonché sui modelli NVMe e funziona in modo simile a Vita rimanente, solo in modo inverso. Il nuovo attributo 202 dell’SDS riporterà “0” e quando la sua vita utile specificata è stata raggiunta, mostrerà “100,” indicando che è stato utilizzato il 100% della sua vita utile. Su questi modelli la percentuale può superare 100 man mano che vengono eseguite più operazioni di scrittura, ma i problemi di conservazione dei dati sono gli stessi.

Attributo 5: Blocchi NAND ritirati

Nell’attributo 5 SMART viene monitorato il numero di blocchi ritirati mediante il processo di valutazione continua della qualità dei blocchi NAND. Il firmware dell’SSD può ritirare i blocchi NAND per diverse ragioni oltre all’usura e ai problemi di conservazione dei dati sopra descritti. Una ragione per il ritiro è un’eliminazione di un blocco non riuscita durante la cancellazione o lo spostamento di dati nella Garbage Collection. Questo tipo di guasto causa un basso rischio per i dati dell’utente poiché i dati in questione devono essere eliminati o sono già stati copiati correttamente in una nuova posizione dell’SSD.

I nuovi SSD Crucial misurano i superblocchi con questo attributo; i superblocchi sono gruppi composti da molti blocchi singoli. Quando la misurazione dell’attributo 5 è questa, il totale del blocco non aumenterà fino a quando molti blocchi singoli non verranno ritirati.

Attributo 180: Conteggio blocchi riservati inutilizzati (blocchi di ricambio disponibili su PCIe e SSD)

Come indica il nome, si tratta del conteggio dei blocchi extra disponibili per l’uso in caso di ritiro di blocchi non più idonei. Questo numero varia in base all’architettura NAND sottostante, all’architettura del firmware e alla capacità utente dell’unità, ma solitamente si tratta inizialmente di migliaia.

Questo numero decresce all’aumentare dei blocchi ritirati. Quando l’attributo 180 raggiunge lo 0, il firmware posizionerà l’SSD in modalità di sola lettura. L’SSD non potrà essere usato come normale unità, ma l’utente dovrebbe essere in grado di recuperare i dati archiviati e trasferirli in un nuovo dispositivo.

Come con l’attributo 5, anche gli SSD Crucial più recenti misurano i superblocchi con questo attributo, il che significa che il totale del blocco non diminuirà fino a quando molti blocchi singoli non verranno ritirati, e può essere caratterizzato da un valore molto più basso rispetto a parti prodotte in precedenza.

Attributo 210: Conteggio pagine recupero RAIN

Il Redundant Array of Independent NAND (RAIN) è analogo all’acquisizione della ridondanza dei dati mediante RAID in un array di unità. Tuttavia, la ridondanza RAIN si compie all’interno dell’unità, in maniera trasparente per l’utente. RAIN è una funzione utilizzata dall’SSD per proteggere i dati dell’utente ed estendere la vita utile dell’unità.

Gli eventi RAIN sono molto rari, pertanto, se questo conteggio aumenta molto, è il momento di esaminare alcuni attributi sopra menzionati e vedere se l’unità non necessiti di sostituzione. Eventi RAIN frequenti possono causare una notevole diminuzione delle prestazioni. Utilizzare parità/ridondanza per il recupero dei dati consente all’unità di continuare a funzionare normalmente, ma consuma larghezza di banda I/O. Se le diminuzioni delle prestazioni sono frequenti, le ricostruzioni RAIN potrebbero essere la causa del problema.

Attributo 174: Conteggio perdite di potenza impreviste (conteggio degli arresti non sicuri su PCIe e SSD)

Una normale perdita di potenza in un sistema informatico è preceduta da un messaggio dal computer host all’SSD che indica che l’alimentazione sta per essere interrotta. Questo avviso dà all’SSD il tempo necessario per completare le attività in corso. Una volta completate le attività, l’SSD invia un messaggio di “conferma” all’host e l’host termina l’arresto.

In altre situazioni, l’alimentazione può interrompersi in maniera imprevista, causando problemi all’SSD. In quasi tutte le condizioni, l’SSD può compensare il guasto, sebbene il tempo di avvio successivo possa essere un po’ più lungo (alcuni secondi, invece di centinaia di millisecondi), ma il sistema si riavvia.

L’attributo 174 è solitamente di carattere informativo. Tuttavia, un numero elevato di eventi di questo tipo può indicare che l’utente deve essere istruito sulle corrette modalità di arresto dei sistemi operativi o che potrebbe esserci un problema con l’alimentazione o le connessioni.

Attributo 194: Temperatura involucro (temperatura del dispositivo su PCIe)

Il software Storage Executive di Crucial riporterà sia la temperatura attuale sia la temperatura più elevata nella vita utile del dispositivo, in gradi Celsius, misurata da un sensore nell’SSD. La gamma operativa specificata per la maggior parte degli SSD Crucial è da 0 a 70 °C (o da 32 a 158 °F). Qualsiasi temperatura superiore a 70 °C registrata può invalidare la garanzia del prodotto, pertanto è necessario monitorare la temperatura periodicamente. Se la temperatura è regolarmente sopra i 65 °C, si consigliano misure correttive come un miglioramento della ventilazione attraverso l’aggiunta di ventole.

Considerazioni finali

SMART può essere uno strumento molto utile per il monitoraggio dello stato dell’SSD. Tuttavia, SMART non è uno strumento di diagnostica completo. Le informazioni raccolte dagli attributi SMART nonché dalla diagnostica del sistema operativo possono fornire un buon punto di partenza per le operazioni standard di risoluzione dei problemi.

Dati SMART riportati o interpretati erroneamente possono portare a conclusioni errate che, sfortunatamente, possono comportare il reso di un’unità perfettamente funzionante. Pertanto, vale la pena ripetere che Crucial raccomanda vivamente di usare esclusivamente il software Storage Executive di Crucial per la lettura dei dati SMART dagli SSD Crucial.

©2019 Micron Technology, Inc. Tutti i diritti riservati. Informazioni, prodotti e/o specifiche sono soggetti a modifiche senza preavviso. Né Crucial né Micron Technology, Inc. sono responsabili di eventuali omissioni o errori fotografici o di tipografia. Micron, il logo Micron, Crucial e il logo Crucial sono marchi commerciali o marchi registrati di Micron Technology, Inc. PCI Express e PCIe sono marchi registrati di PCI-SIG. Tutti gli altri marchi commerciali e i marchi di servizio sono di proprietà dei rispettivi detentori.