硬碟 MTBF、AFR 是什麼?弄懂硬碟耐用度重要數字,可千萬別被人騙囉!

先前文章不斷有提到 NAS 專用硬碟大多是以 7X24(連續一週七天二十四小時)不間斷運作為設計目標,因此像是 Seagate Ironwolf 這類專為 NAS 所設計的硬碟,不僅在 MTBF(平均失效間隔時間)、AFR(年失效率)等數值上遠高於一般家用硬碟,同時也會針對多硬碟陣列長時間運作等用途做特別的優化,例如先前提過的 RV 旋轉振動感應等等。

不過問題來了,我們常常在規格表上比較那些 MTBF 數值,但上面寫的都是動輒幾十萬起跳的「小時數」,像是 Seagate Ironwolf Pro 系列 120 萬小時的數字。這種數字到底是怎麼計算出來的呢?是真的把硬碟裝在機器上運作 120 萬小時來測試嗎?

這當然是不可能的嘛!試想一下,120 萬小時大約是 137 年,電腦問世都還不到一百年好嗎?事實上 MTBF 並不是什麼「算出來」的數字,而是人為設定的硬體耐用度設計「目標值」。

但我們該如何關注他呢?前陣子知名資料中心 Backblaze 公布機房使用的硬碟損壞率,其中又以我最常推薦大家使用的 Seagate 為「故障率冠軍」,這其中又有什麼樣不可告人的數字遊戲呢?就讓我們來一一拆解吧!

上圖:Seagate Ironwolf Pro 系列 MTBF 高達 120 萬小時,這是怎麼測出來的呢?

MTBF:假設性的數字,與年失效率 AFR 有關

MTBF 是一項用於規範器材使用損毀耐用期間的計算數字,全名為「Mean Time Between Failures」,亦即「平均損壞間隔時間」。

通常 MTBF 都是以小時為單位,他計算的是當一樣設備裝上使用後,在正常使用下平均要多久才會壞掉。也就是說,在你裝上一顆新硬碟之後,這顆硬碟大約要用多久之後才會壞掉的意思。不過字面上是這樣說,但實際上可不是這樣的,不然一顆硬碟要用 120 萬小時才會壞,那豈不是各家廠商都只要做一年硬碟就可以收攤了

前面說過,MTBF 是一種廠商設計產品前預先設定的數字,因此後續我們仍需靠實測計算來驗證他,才能確定產品耐用度是否有達到預設的 MTBF 數值。我們先說說 MTBF 是怎麼驗證的吧!MTBF 是用一年 8760 小時註一(24 小時 X 365 天),除以剛剛提過的年失效率 AFR 之後,算出來的數字就是 MTBF 了。所以像是 Seagate Ironwolf Pro 的 MTBF 120 萬小時,就是用 8760 除以 Seagate Ironwolf 的 AFR 0.73% 之後得出來的數字。

(註一:AFR=POH/MTBF。NAS及企業級 POH:8760、桌機 POH:2400。因此不一定以8760 計算,也可能用 2400,端看硬碟型號與規格。)

這時候又有新問題了,既然 MTBF 是產品設計時所設定的耐用度目標,那廠商要如何測試來驗證產品是否有達到 MTBF 值呢?難道是把硬碟真的裝下去運作個幾十萬小時嗎?

當然不是!前面我們提過,用以驗證 MTBF 的重要數字「AFR 年失效率」,就是靠實測統計算出來的數值,同時這也是近年來 Seagate 作為硬碟壽命測試依據的數字。

那 AFR 是怎麼算的呢?

上圖:長時間運作下硬碟都有損壞可能,因此 AFR 就是很重要的「硬碟損壞機率」參考數值

AFR 的全名為「Annualized Failure Return Rate」,就是年失效率的意思,用來計算一年之中硬碟壞掉的機率有多高。但請注意,儘管 AFR 計算依據有經過實測,但依然屬於機率統計的結果。

在 AFR 的測試中,會一次用上大量(可能上千顆)硬碟,同時放入 Server 中讓他運行進行日常使用測試。接著在一段時間之後,統計在這段時間裡壞掉的硬碟數量,再加上 365 天(一年)的數值進去做個加權,最後得出就是 AFR 的數字了。這個數字在 NAS 專用碟上通常都很小,大約都只有幾 % 而已,這也是為什麼那些 MTBF 數值動輒百萬起跳的原因。

MTBF 與 AFR 都是「機率」

MTBF 一兩百萬小時,就代表硬碟要一兩百年才會壞嗎?當然不是!如果真是這樣的話,又何必硬碟只給個三年保固,而不乾脆給你個終身保固呢?反正都不會壞不是嗎?

上圖:任何新品都有壞掉的可能,硬碟當然也不例外,但這只能算是「運氣」範疇了。

前面說過,MTBF 跟 AFR 都是屬於機率的數字。從一開始 AFR 的測試之中就可看到,所謂的年失效率其實是大量硬碟在固定時間內測試中壞掉的數量,因此本質上就是一種「硬碟平均用多久之後就會壞掉的機率」。

雖說最後算出來的機率都少得嚇人,但請別忘了,這些數字終究是靠那些壞掉的硬碟才得以算出,因此實際上硬碟還是有機會壞掉的喔!

上圖:這是 Backblaze 的機房,有大量的硬碟在同時運作。圖片來源:https://www.backblaze.com

至於什麼樣的情況會壞掉?如果都是正常應用下,不要高溫高濕度,一般來說硬碟會壞掉都純屬硬碟良率問題。就好像有些人買 iPhone,一開箱立刻就拿到故障機王,有些人則是一路順順用到換手機都沒發生過故障一樣,真的就是…運氣好壞的差異而已了。

不過這裡還是要強調,雖然每個人都有可能買到機王,但是在一般情況下,選擇原廠測試中 MTBF/AFR 數字相對漂亮的產品,才是最正確的做法。


例如 Seagate Ironwolf Pro 120 萬小時,就遠超過一般裝機用硬碟的耐用度,甚至還超過業界其他品牌 NAS 硬碟的數據。這樣只要不是真的運氣很賽買到機王,通常來說真的就是較為耐用的硬碟選擇。當然你也可以選擇不相信原廠提供的實測數據,或是因為價格考量而去買不合適的硬碟,只是這樣一來,就真的是把硬碟與資料安全交在命運之神手裡囉~

Backblaze 實測數據背後的真相

有些資料中心每一季都會公告他們使用的硬碟損壞報告數據,而這些數據都是用品牌與型號來分的,因此同時也會成為許多人用來評估硬碟耐用度的參考。不過這數據其實幾年來都呈現了同樣的結果:Seagate 就是損壞率最高的爛硬碟王者!

每一季都會出現一次一樣的報告,對我來說…我知道大家都很信任我,也相信 Seagate 硬碟真的如我實測的情況一樣,穩定而快速。但我想還是得跟大家說明一下 Backblaze 的測試結果,讓大家可以瞭解為何 Seagate 一直都是損壞率王者,至少…以後有朋友問你幹嘛都買 Seagate 的時候,你可以告訴他事實的真相。

前面提到了 MTBF 與 AFR,除了讓大家知道這數字怎麼算出來之外,其實也是要告訴大家,硬碟規格體現的就是該系列硬碟在設計時的目標與初衷。這也是為什麼有些硬碟會標示 MTBF,有些則不會,例如 Seagate Barracuda 就是很好的例子,這系列硬碟在規格上就連 MTBF 都沒標示,就是因為許多硬碟本身的設計就不是長時間不間斷應用的。因此實際上 Seagate 會建議 NAS 或 Server 這種不間斷開機的機器,應該選用 Ironwolf 系列,甚至企業級硬碟以策安全。

上圖:有多少台灣科技人在看到這張表時,會去注意硬碟系列與型號的對應呢?

BackBlaze 的 Seagate 硬碟用了便宜的消費性裝機碟,HGST 卻是高耐用度的企業級硬碟。

但是請看 Backblaze 的測試報告,很多人都會忽略了硬碟型號,而是直接看硬碟品牌。但實際上 Backblaze 那顆 AFR 高達 29%,造成 Seagate 在 Backblaze 報告上成為爛硬碟王者的就是 Barracuda 新梭魚系列(ST4000DM005);而用來作為類比,把 HGST 硬碟名聲推到最高點,AFR 僅 0.63% 的 HGST 超耐用硬碟呢?抱歉,這顆是 HGST 中的企業級硬碟(HMS5C4040BLE640)。

拿桌機用硬碟去比企業級硬碟,這不是 XX 比雞腿嗎?我們不說什麼 MTBF,光是兩者的售價就天差地遠:Seagate Barracuda 4TB Amazon售價約 99 美元;但那顆 HGST 企業級硬碟 4TB 在美國 Amazon 上可是要價 292 美元(約台幣八千多)啊!

用桌機硬碟去比企業級硬碟,一個天生不是為長時間運作而生,一個特別設計成超耐用硬碟,這樣的結果卻能被台灣一些科技媒體拿來大作文章,看完我也是醉了。

再來第二個問題:Backblaze 使用了超大量的 Seagate 硬碟,而且大多都是便宜的桌機用硬碟!

BackBlaze 8TB 用了兩萬多顆 Seagate,HGST 卻只用了 45 顆。

如果仔細比對 Backblaze 的數據,你會發現 Seagate 硬碟的用量大得驚人。以 8TB 來說,Backblaze 總共用了 24282 顆 Seagate 硬碟,其中有九千多顆是便宜的 Seagate Barracuda 系列,其餘則為企業級硬碟;而同容量的 HGST 硬碟呢?僅有「45 顆」。

在樣本數龐大的情況下,實測下硬碟壞掉的機率相對更高是必然的。就好像你買個十顆硬碟可能一顆都沒壞,於是你把 AFR 定義為 0%;但是你一口氣買一萬顆,AFR 還有可能是 0% 嗎?

上圖:紅框圈起來都是 Seagate 便宜的消費性裝機硬碟,也是 BackBlaze 用最多的系列

因此從 Backblaze 的數據來看,其實有兩個很大的謬誤,但多數人卻沒有發現而直接下了評斷:第一,Backblaze 大多採用 Seagate 桌機系列硬碟;第二,Backblaze 用的 Seagate 硬碟數量遠超過其他品牌硬碟。

為什麼會有這樣的現象呢?其實這兩個問題都直指同一個核心問題:價格。

以硬碟來說,Seagate 的硬碟大多低於市面上的其他品牌,尤以 HGST 的落差最大。在同一個系列下尚且如此,若是再將剛剛說過的桌機系列與企業級相比,價格更是大到無以復加。以現貨價格來說,Seagate 企業級與 HGST 企業級的落差約為 15%;而若是再把 Seagate Barracuda 裝機碟算進來,那麼 Seagate Barracuda 與 HGST 企業級的同容量價差將會高達 50%!

巨大的價差之下,對於要用上數萬顆硬碟的資料中心來說,到底該選哪個品牌,我想就不用多說了吧?這也說明了為什麼明明 Seagate 每年都是損壞率最高的王者,但同時卻也是 Backblaze 每年選購硬碟時的首選。說穿了,就是成本考量在作祟啊~

如果用企業級硬碟來相比,在樣本數(Drive Days)落差超過六十倍下,Seagate 的 AFR 依然比 HGST 還低

因此如果真要用「正確」的比較基準來看,同樣是企業級硬碟,Seagate 的 AFR 甚至還比其他品牌來得更低上許多,在 AFR 低、價格也低的情況下,你說 Backblaze 會買哪家的硬碟呢?所以如果你真的很在乎硬碟的穩定與資料安全,那麼千萬要用正確的觀念與比較基準來看這些報告。

我並不是要說 Backblaze 報告不準,只是其中參雜了太多的商業考量不管是使用的硬碟型號,或是安裝的硬碟數量,都會大幅影響最後的統計數字。因此千萬不要看到標題就高潮,跟那些不懂裝懂的人一樣,看到 Backblaze 報告就隨「雞」起舞囉~

>只說真相的產品報告:寗可好物

只說真相的產品報告:寗可好物

我們想成為最棒的生活網站,提供鉅細靡遺的產品真相,因為我們認為,如果能幫助你少走些冤枉路,不再因為幾句廣告而錯信、錯買,就是好事一樁

用真心記錄真實,寫下各式各樣的開箱、體驗、思想與心得,希望我們的的所知所學,不只嘉惠我們自己,也幫助更多的人。若你喜歡我們的理念,請加入我們的訂閱名單,讓正向力量,持續循環

CTR IMG