MATRIX UAB - Google hard disk failures analysis, trends

Google kietų diskų gedimų dideliuose masyvuose patirtis, tyrimas

Googlas išleido užburiantį tyrimų dokumentą, pavadintą “Gedimų kryptys dideliuose diskų telkiniuose“ (pdf) šių metų „Bylų ir duomenų saugojimo technologijos“ (FAST’07) konferencijoje. Google surinko duomenis apie 100000 standžiųjų diskų telkinį, ir visa tai aprašė mūsų malonumui.

Tai yra naujas posūkis vartotojo-valdomoje IT rinkoje, diskai kurios Google nagrinėjo, t.y. PATA ir SATA, naudoja asmeniškai daug vartotojų, ir aš tame tarpe. Kaip linksmas rezultatas, dabar mes turime geresnius duomenis apie diskų gedimus negu stambus verslas, kuris naudoja žymiai brangesnius FC (fiber channel) ir SCSI „verslo“ (enterprise) klasės diskus su žymiai didesniu MTBF.

Google rado stulbinančius rezultatus penkiose srityse:

Gamintojo MTBF specifikacijų tikrumas
SMART statistikos naudingumas
Darbinis apkrovimas ir disko gyvenimas
Amžius ir disko triktis, gedimas
Temperatūra ir disko triktis.

Aš jums duosiu santrumpą apie kiekvieną iš šių punktų, po pastabos apie MTBF ir AFR.

Gamintojų MTBF ir Google AFR
Mean Time Between Failure (MTBF) (Vidutinis trikties laikas, laikas tarp sutrikimo) yra statistinis matas. Kai gamintojas nurodo 300,000 MTBF – kas yra įprasta tarp vartotojiškų PATA ir SATA įrenginių – ką jei sako, yra tai, kad dideliam įrenginių telkiniui pusė iš šių diskų sutriks per pirmas 300000 valandų po paleidimo.MTBF, taigi, nieko nesako kiek ilgai kiekvienas konkretus diskas ištarnaus.

Idealiu atveju, jei jūs turite 600000 įrenginių su 300000 valandų MTBFs, jūs tikitės turėti vieną disko gedimą per valandą. Per metus jūs tikitės pamatyti 8760 (valandų kiekis metuose) įrenginių trikčių arba 1.46% Annual Failure Rate (AFR) (Metinis trikčių dažnumas). Ar tai atrado Google? Nevisai.

Čia yra šioks toks aptarimas šių rezultatų , Amžiaus ir Diskų Trikčių skyriuje, kad įsitinkitumėt skaitykite toliau.

Gamintojų MTBF specifikacijos
Gamintojai sako mums kas yra MTBF įvertinimas, tai ką dar papildomai mes turime žinoti? Pakankamai truputį. Gamintojai apibrėžia triktis šiek tiek skirtingai negu tai suprantame mes. Ir kaip bebūtų keista, jų apibrėžimai atrodo šiek tiek patikimesni negu aš irjūs matote.

Gamintojai tipiškai žiūri du duomenų tipus. Pirmas yra rezultatai pagreitinto gyvenimo testo, kuris yra geras, kai reikia nustatyti kai kuriuos aplinkos veiksnius įrenginio (laikmenos) gyvenimui, bet jie nėra geri, kai reikia atspindėti naudojimą realiame pasaulyje. Antras dalykas, gamintojai žiūri į jų įrenginio grąžintus duomenis. Gamintojai paprastai duoda ataskaitą „trikčių nerasta“ su 20-30% iš visų grąžintų kietų diskų, bet kaip Googleriai pažymi:

Kadangi gedimai (triktys) kartais yra išdava kombinacijos kelių dalių (pvz. tam tikras kietas diskas su tam tikru kontroleriu ar laidu, ir pan.), . . . pakankamas skaičius įrenginių. . . gali būti svarstomas kaip veikiantis įvairiuose testavimo sunkumo lygiuose. Mes stebėjome. . . situacijas kur kieto disko testuotojas pastoviai mato „žalias lemputes“, kai tas įrenginys pastoviai sugenda realiai naudojant.

Žemutinė eilutė: MTBF skaičiai yra tokie kaip ir kiti iš „laikmenų našumo statistika“: tai yra akių dūmimas, jei jūs jį matote realiame gyvenime.

Kaip gudrus yra SMART?
Nelabai kaip rado Google, ir dauguma kompiuterių pramonėje tai jau žino. SMART (Self-Monitoring, Analysis, and Reporting Technology) pagauna kieto disko klaidas, tam kad numatyti gedimą toli prieš iš anksto, tam kad pasidaryti atsargines kopijas. Nors SMART susikaupia į mechaninius gedimus, pakankamai geras trikčių gabalas yra elektroninės, todėl SMART nepateikia daug staigių kieto disko sutrikimų režimų, tokių kaip elektrinių dalių gedimų. Google būrys rado, kad 36% sugedusių įrenginių neparodė nei vienos SMART tikrinamos ir stebimos klaidos. Jie padarė išvadą, kad SMART duomenys yra beveik nenaudingi iš anksto spėjant gedimą vienam diskui.

Taigi kol jūsų diskas gali sulūžti, sugesti be jokio perspėjimo bet kuriuo metu, jie rado keturis SMART parametrus, kurie stipriai susiję su disko triktimi:

Skenavimo klaidos (scan errors)
Sektorių perskirstymo skaičius (reallocation count)
Atjungtas perskirstymas (offline reallocation)
Bandymų skaičius (probational count)

Pavyzdžiui, po pirmos skenavimo klaidos, jie rado kad diskas 39 kartus labiau linkęs sugesti per kitas 60 dienų, negu įprasti diskai. Kitos trys sąsajos yra mažiau ryškios, bet tai pat reikšmingos.

Apatinė eilutė: SMART gali jus perspėti apie kai kurias bėdas, bet praleisti kitas, todėl jūs negalite juo pasitikėti. Todėl ne. Saugokite duomenis dažnai, ir jei gausite vieną iš tokių klaidų, pirkite naują diską.

Perkrovos = ankstyva mirtis?
Nepilnametis gali bandyti jus įtikinti, tačiau Googleriai rado labai mažą sąsają tarp disko darbinio apkrovimo ir gedimų dažnumo. Kai dauguma iš mūsų, įtraukiant verslo IT liaudį, neturi jokio supratimo kiek darbo daro mūsų diskai, išnaudojimas yra slidi sąvoka. Autoriai apibrėžė tai sąvokomis "savaitinis vidurkis skaitymo/rašymo pralaidumo per diską", ir priderino prie fakto, kad naujesni diskai turi didesnį pralaidumą negu senesni įrenginiai.

Kaip rodo šis grafikas, naujų diskų mirtingumas yra daug didesnis tarp aukšto išnaudojimo diskų. Todėl kratykite juos kol, jie dar yra garantiniai. Ir nesirūpinkite dėl darymo šitų kasdienių atsarginių kopijų ir kitų I/O (įvedimo/išvedimo) intensyvių darbų, kad jie paveiks disko darbą – tiesiog ir toliau darykite atsarginį duomenų saugojimą.

Amžius ir diskų triktys
Tai labiausiai erzinanti dokumento dalis, dėl to kad būrys pripažįsta, kad jie turi daiktinius įrodymus, kas gamina gerus diskus ir kas ne, bet nuščiūva dėl „ …savininkiškų šių duomenų savybių“. Sveikas, Larry, Sergey, ar ne Google’s misija“. . . susisteminti pasaulio informaciją ir padaryti ją universaliai prieinamą ir jaudinga? Kaip apie tai būtent čia?

Google perka didelius kiekius tam tikro modelio standžiųjų diskų, bet tik kelius mėnesius, kol naujas geras sandėris ateina. Kaip jie sako: Dėl šios priežasties, šie duomenys nėra tiesiogiai naudingi supratimui apie diskų amžiaus poveikį gedimų kiekiui (išimtis yra tai, kad pirmi trys duomenų taškai yra valdomi pakankamai stabilaus įvairių modelių mišinio). Grafikas nepaisant to, yra geras būdas pateikti išeities apibūdinimo tašką gedimams per visą mūsų populiaciją.

Average failure rate - vidutinis gedimų dažnis (AFR) nėra tokie glodūs nei tokie maži kaip gamintojų MTBF jus bando įtikinti.

Staigi mirtis nuo karščio?
Vienas labiausiai sudominusių atradimų yra sąryšis tarp disko temperatūros ir diskų mirtingumo. Google būrys nuskaitė temperatūros duomenis iš SMART įrašų kiekvienas kelias minutes per devynių mėnesių laikotarpį. Kaip rodo čia grafikas, gedimų dažnis nedidėja kai vidutinė temperatūra kyla. Prie labai aukštų temperatūrų yra atvirkštinis efektas, bet ir šis yra labai mažas. Čia yra grafikas iš dokumento:

Disko amžius turi įtakos, bet tik prie labai aukštų temperatūrų. Čia yra grafikas:

Googleriai padaro išvadą:

Žemesnėse ir vidutinėse temperatūrose, aukštesnės temperatūros yra nesusijusios su didesniu gedimų dažniu. Tai yra gana stebinantis rezultatas, kuris gali rodyti, kad duomenų centrų ar serverių dizaineriai turi daugiau laisvės negu anksčiau, kai nustato darbines temperatūras įrangai, kuri turi standžiuosius diskus.

Geros naujienos interneto duomenų centrų valdytojams.

Mūsų išvados

Yra daug čia prasmių ir toliau einančių išvadų kurios gali stulbinti:

Diskų MTBF skaičiai žymiai nuvertina gedimų dažnius. Jei jūs suplanuosite, kad AFR yra apie 50% didesni negu MTBFs jums siūlomi, jūs būsite geriau pasiruošę.
Mažų biurų vartotojai, galvokite keisti 3 metų senumo diskus, arba bent jau rimtai galvokite apie išsaugojimą duomenų iš senesnių, kaip 3 metų kietų diskų.
Verslo diskų pirkėjai turėtų reikalauti realių duomenų, kad patvirtinti deklaruojamą MTBF, tipiškai 1 milijonas valandų plius – šiems brangiems ir dabar žymiai mažiau ištirtiems diskams.
SMART jus perspės apie kai kuriuos įvykius, bet ne visus, todėl pramonė turėtų spręsti ir sugalvoti kai ką daugiau naudingą.
Apkrovimo skaičiai kelia klausimą apie naudingumą kai kurių architektūrų, tokių kaip MAID, kurios remiasi išjungdamos diskus jų gyvenimo pratesimui. Googleriai nenagrinėjo šio prašymo, bet jei aš pardavinėčiau MAID, aš ruoščiausi keliems sunkiems klausimams.
Liaudis, kuri planuoja pardavinėti aušinimą, turėtų taip pat ruoštis sunkiems klausimams. Galbūt aušinimas ne visada geriausia. Bet tikrai jis yra daug daug brangesnis, negu kiti sprendimai.
Tai įteisina „vartotojo“ klasės diskų naudojimą duomenų centruose, todėl kad pirmą kartą mes turime didelės apimties tyrimą, kurio niekada nedarėme verslo klasės diskams.

Ir pačiam galui, gudrūs vyrukai iš CMU (Carnegie Mellon University) padarė tyrimą kuris prašviečia šį reikalą iki pačio taško.

Originalus Google tekstas anglų kalba: Failure Trends in a Large Disk Drive Population, Eduardo Pinheiro, Wolf-Dietrich Weber and Luiz Andr´e Barroso
Google Inc.

Jei sugedo jūsų kietas diskas, dingo duomenys, reikalingas duomenų atkūrimas rašykite service@matrix.lt arba skambinkite +370-698-39001, +370-674-88995.