Seagate ST8000AS002 いわゆる「瓦記録」方式を採用した史上初の量産ハードディスクドライブ

8TBのハードディスク2台が吹っ飛んだ ~その傾向と対策~ 前編

  • このエントリーをはてなブックマークに追加

by [2016年4月05日]

Seagate ST8000AS002 今回問題を起こしたハードディスクドライブその1

Seagate ST8000AS002
今回問題を起こしたハードディスクドライブその1

パソコンを使用していて、心臓が止まりそうな程の恐怖を覚える機会というのはそれほど多くはありません。

まぁ、そんなことがそうそう簡単に起こって貰っては困る、というのもあるのですが、筆者の経験上で言えば大量の、それも換えの効かないようなデータを保存しているハードディスクが正常にアクセスできなくなることほど恐ろしいことはありません。

特に、最近は保存されるファイルのデータサイズもハードディスクドライブ1台あたりの容量も、共に20年前では考えられなかったほどの規模に達しており、ハードディスクが1台正常動作しなくなるだけでも被害が甚大です。

そんなの、バックアップを取っておけば良いじゃないかという声も聞こえてきそうですが、最近はそのバックアップを取るのも難しくなってきています。

特に、ハードディスクドライブ1台あたりの容量増大にバックアップメディアの容量増大が追いついていないことの影響は深刻です。

実際、筆者のマシン環境ではハードディスクドライブ1台あたりの容量が500ギガバイトを超えた頃にまずDVD-R(※注1)でのバックアップが現実的ではなくなり、さらに2テラバイトを超えた頃には、もうハードディスクドライブ全体の光学メディアによる定期バックアップを諦めざるを得なくなりました。

 ※注1:当時は片面2層(容量8.5ギガバイト)のDVD-Rメディアが事実上1社独占状態であったため大変高価で、そのため容量4.7ギガバイトの片面1層タイプのメディアを多数使用してバックアップを取っていました。その後、Blu-rayディスクの価格がそれなりに下がってきたことから2層タイプ(容量50ギガバイト)のBD-Rに切り替えてバックアップに必要なメディアの枚数削減を図りましたが、焼け石に水、といった状況でした。

もっとも、この当時はハードディスクドライブの大容量化と低価格化が手を取り合って進行していて、もう1台同容量のハードディスクドライブを購入してそちらに定期的にバックアップを取っておく、という手法を用いることにより、本当に重要なデータを保存しているドライブに限ってドライブ全体の一括バックアップを取ることができました。

しかし、ハードディスクドライブ容量が最大で10テラバイトに達し、安い機種でも何万円もする状況となってくると、この手法を用いるのは恐ろしくコストがかかることになってしまいます。

富士フイルムのLTOテープ製品紹介ページLTOの特徴について解説されている

富士フイルムのLTOテープ製品紹介ページ
LTOの特徴について解説されている

実を言うと、LTO Ultrium(Linear Tape-Open Ultrium)といって1/2インチ磁気テープを専用カートリッジに収めたオープン規格の大容量バックアップメディアがあって、現行最新のLTO7では1巻のテープカートリッジで非圧縮なら6テラバイト、圧縮だと15テラバイトのデータをバックアップできるようになっているため、現在でも同容量ハードディスクドライブへのバックアップ以外でドライブ全体のバックアップを取る手段が全く無くなったわけではありません。

しかしこのLTO7は対応テープドライブのお値段1台70万円コースが相場で、テープカートリッジも1巻あたり2万円~4万円程度と大変に高価です。

イニシャルコストが経費で落とせて、しかも絶対に定期的な全体バックアップを取る必要のあるそれなり以上に大きな法人でもなければ、とてもこんな高価なバックアップ機器には手が出せないでしょう。

それなら、廉価で販売されている3テラバイト位の容量のハードディスクドライブを何台か買って、それらを束ねてバックアップ用として使えばいいじゃん、という声もあるかもしれません。

しかしそれは、計算してみると判りますが必要な台数を揃えると案外高コストで、しかも同時に接続できるようにするにはそれ相応のハードウェア(※注)を別途用意しなければならないなど、いざ実行に移そうとすると結構な手間とコストがかかることが判ります。

 ※注2:使用するハードディスクドライブに対応した外付けUSBハードディスクケースや多チャネル接続可能なRAIDカードなど。

それ以前の話として、そもそも搭載電源容量や筐体形状、それに設置場所の制約からハードディスクドライブをそこまで沢山積めない/外付けできない筆者のメインマシン環境では、それは選択したくとも選択できない手法です。

そんなわけで、最近はどうしても必要なデータだけ2層タイプのBD-Rメディアに書き出してバックアップを取っていた筆者ですが、遂に恐れていた事態が発生してしまいました。

1993年以来20年以上にわたって何十台もの光磁気ディスクドライブおよびその記録メディアやハードディスクドライブの間でデータ転送を繰り返しつつ引き継がれてきた、膨大な量のデータを保存していた8TBのハードディスク2台が、立て続けに正常アクセス不能となってしまったのです。

今回は、その調査および復旧についてご紹介したいと思います。

何が起きたのか

今回、何がどうなったかについて語る前に、その前提条件として、当時の筆者のメインマシンに搭載されているハードディスクやSSDがどのような構成であったかを簡単にご説明しておきましょう。

Hewlett-Packard Z800 Workstation筆者の愛機。前面左側面下部に4台の3.5インチハードディスクドライブを搭載可能で、前面上部に3つの5インチベイを備える。筆者のマシンではここに4台の2.5インチドライブを搭載可能とするリムーバブルラックと1台の3.5インチハードディスクドライブを搭載可能とするリムーバブルラックを搭載している

Hewlett-Packard Z800 Workstation
筆者の愛機。前面左側面下部に4台の3.5インチハードディスクドライブを搭載可能で、前面上部に3つの5インチベイを備える。筆者のマシンではここに4台の2.5インチドライブを搭載可能とするリムーバブルラックと1台の3.5インチハードディスクドライブを搭載可能とするリムーバブルラックを搭載している

筆者のマシンでは問題発生時、Windowsのシステムディスクに400ギガバイトのSSDを1台使用し、仮想記憶領域として余っていた2.5インチの15,000rpm級73ギガバイト SASハードディスクドライブを割り当て、アプリケーションソフトのインストール先やそれなりに速度の必要なエンコード作業領域、あるいはテンポラリ領域に7,200rpmの6テラバイト HDD 2台を使用、ステーブルな、つまり頻繁な書き換えの可能性の少ないデータ保存用としてSeagate社の「Archive HDD」(ST8000AS0002)と称する8テラバイト HDD 2台を接続するという構成になっていました。

ちなみにこれらのドライブは全てAdaptec社(現・Microsemi社)製の6Gb/s対応で8ch接続可能なSAS RAIDカード(Adaptec 6805)に接続(※注3)していました。

 ※注3:使用しているメインマシンのオンボードSATAインターフェイスの転送速度が3Gb/sの古い規格にしか対応しておらず、接続されるドライブ群の性能を充分発揮させるためにこのような構成としています。なお、このAdaptec 6805にはZero-Maintenance Cache Protection (ZMCP) と呼ばれるフラッシュメモリと大容量キャパシタによる書き込み中に電源が落ちるなどのトラブルが発生した際にデータの喪失を防止するための特別なハードウェアも搭載されています。

Adaptec 6805筆者がここ2年ほど使用している8ch接続対応で6.0Gb/s SAS/SATA対応のハードウェアRAIDカード。なお、手前の黒いAdaptecのロゴの入った部品は大容量キャパシタで、停電時などの非常時にドライブへ書き込めなくなったメイン基板のキャッシュ用メモリ上の書き込みデータやRAIDコントローラの各種情報を、一旦サブ基板上のFlashメモリへ書き出し・待避するのに必要な電力を供給する

Adaptec 6805
筆者がここ2年ほど使用している8ch接続対応で6.0Gb/s SAS/SATA対応のハードウェアRAIDカード。なお、手前の黒いAdaptecのロゴの入った部品は大容量キャパシタで、停電時などの非常時にドライブへ書き込めなくなったメイン基板のキャッシュ用メモリ上の書き込みデータやRAIDコントローラの各種情報を、一旦サブ基板上のFlashメモリへ書き出し・待避するのに必要な電力を供給する

そして、そのAdaptec 6805にはそれ自体とそれにつながるドライブに何らかの異常が発生した場合にブザーを鳴らす機能が搭載されているのですが、よりにもよってそれが大容量のファイルの移動を行っている最中に突如鳴り響いたのです。

筆者も、これには仰天しました。

というのも、この状況でこのブザーが鳴るというのは、

  1. RAIDコントローラが熱暴走して計算をトチった
  2. ハードディスクドライブへの電力供給が安定せず書き込みに失敗した
  3. OSあるいはデバイスドライバ、もしくはデバイスのファームウェアなどに何らかの問題がある

のいずれかの可能性が高いことを示唆しているためです。

そのため、慌ててマイコンピュータ画面とデバイスマネージャを開いてみたのですが、嫌なことにはまさにデータを書き込みつつあったドライブが1台見えなくなっています。

 …ドライブが見えないってかなりやばくね??

ドライブがエクスプローラから見えなくなる、というのはあり得ないことでは無いのですが、デバイスマネージャから見えなくなる、というのは尋常ではありません。それはつまり、単にハードディスクドライブに書き込まれたファイル管理領域が何らかの異常を来しただけでは済まないトラブルが発生しているということで、最悪そこに格納されている全ファイルが利用できなくなる恐れすらあることを意味します。

実際、イベントビューアで確認してみると、遅延書き込みデータの紛失と不良ブロックの発生がエラーあるいは警告として報告されています。

問題の発生した筆者のメインマシンのイベントビューアを開いた状態ご覧の通り警告やエラーだらけで、愕然としたことであった

問題の発生した筆者のメインマシンのイベントビューアを開いた状態
ご覧の通り警告やエラーだらけで、愕然としたことであった

そして、ファイル転送作業中にそんな壊れ方をしたことから、3つの可能性の内、前2者である可能性が高いと考えられます。そもそも、デバイスドライバが原因ならば、もっと早くもっと大規模な形で問題が発生していたことでしょうし、OSとの相性などの可能性も、現在の組み合わせでそれでも2ヶ月以上は使用しています(※注4)から、ここではひとまずその可能性は低いと考えておくことにします。

 ※注4:トラブル発生よりも2ヶ月と少し前にWindows 7 Professional x64版からWindows 10 Pro x64版へのアップグレードを行っています。なお、件のRAIDカードのデバイスドライバはMicrosoft社によるいわゆるInBoxドライバで、RAIDカード開発元のAdaptecからのドライバ提供は記事執筆時点ではWindows 8対応のもので打ち止めとなっています。

筆者保有のZ800 Workstationのデバイスマネージャご覧のとおり、主立ったドライブは「Adaptec Array SCSI Disk Device」と表示されている

筆者保有のZ800 Workstationのデバイスマネージャ
ご覧のとおり、主立ったドライブは「Adaptec Array SCSI Disk Device」と表示されている

基本的に、Windowsが使用するレベルでのディスク管理情報が壊れただけならば、それでもデバイスドライバにはそのドライブ(※注5)が表示されますし、またそもそも電源投入直後のいわゆるBIOS画面でも、ハードディスクドライブ上に作成されているディスクアレイが検出・マウントされたことが表示される仕組みになっています。

 ※注5:このマシンの場合はAdaptec 6805にハードディスクドライブが接続されているため、物理的なハードディスクドライブが直接検出されてその型番が表示されるのではなく、見かけ上仮想的な「ディスクアレイ(Adaptec Array SCSI Disk Device)」という形でデバイスマネージャに表示されます。

つまり、デバイスマネージャ上でも見えなくなったということは、ハードディスクドライブ上のWindows管理領域だけではなく、それより下層のRAIDカードが管理するディスクアレイの管理領域まで壊されてしまった可能性が高いということになります。

このあたりの切り分けは、筆者がたまたまRAIDカードを挿していたから判明したことですが、基本的にWindowsは直接触ることのできないディスクアレイの管理領域まで壊してしまったことから、先に挙げた3つの可能性のいずれでもありうる状況となってきました。

そしてここまで切り分けを進め、一旦マシンの電源を落として再起動してみたところ、やはりRAIDカードのBIOS画面でディスクアレイが1つ missing だという警告が表示されました。

どうやらディスクアレイの管理領域を壊されてしまったということで確定のようです。

そこでさらなる原因究明のために再度電源を落とし、件のST8000AS0002と念のため普段あまり使っていないDVD-Multiドライブ(パイオニア DVR-S16J-BK)などを一旦マシンから取り外し、さらにRAIDカードのコントローラチップに貼付されているヒートシンクに直接風を当てるように冷却ファンを追加してから再起動してみることにしました。

もし電源容量が問題でハードディスクドライブが誤動作したり、あるいは熱暴走でRAIDカードが処理を誤ったりしてアレイが壊されたのであれば、これで当面は何とかなるはずです。

しかし、その後あれやこれや作業を行っていると、またファイルコピー中にRAIDカードから悲鳴めいたビープ音が鳴り響きました。

しかも被害を受けたのはもう1台のST8000AS0002で、同じようにエクスプローラでもデバイスマネージャ上でも見えなくなってしまいました。

こうなると、電源容量不足説とRAIDカード熱暴走説の2つは疑わしくなってきます。

冷静に考えてみれば、電源容量が問題であれば、同じ給電系統に接続されている他のハードディスクドライブでも同じように、いやそれ以上に高負荷のかかるファイル転送を頻繁に行っているのに一切問題が起きていないというのも変です。そもそも、消費電力が問題であるなら、回転数が7,200rpmで5,980rpmでしかないST8000AS002よりもずっと恒常的な消費電力の大きな他のドライブに対して大容量データを連続書き込みした時にも同様のエラーが生じるはずです。

…そこで途方に暮れつつしばらく頭を冷やして考えている内に、Windows 10でこのRAIDカードにこのST8000AS0002を接続して大容量ファイルを連続コピーする時にだけ発生する一種の相性問題、さもなくばそうした環境でのST8000AS002自体のファームウェアの特定条件下での挙動に何らかの問題があるのではないか、と考えるようになりました。

だとすると、今後このままRAIDカード接続でこれらのST8000AS0002を使用し続けることは怖くてできません。

そのため、一旦もう1台のST8000AS0002も一旦シャットダウン後に取り外し、別の接続方法を検討することにしました。

次回はこれら2台のST8000AS0002の接続方法とそこに保存されていたデータの復旧について扱います。

▼参考リンク
Archive HDD、データ・アーカイブ用クラウド・データ・クラウド・ハードディスク・ドライブ| Seagate
LTOテープ | 富士フイルム
Adaptec – Adaptec RAID 6805

  • Pingback: 8TBのハードディスク2台が吹っ飛んだ ~その傾向と対策~ 後編|APPREVIEW()

  • 新白川章伸

    LTOテープは国内が高いだけで米尼だと激安です。https://www.amazon.com/HPE-C7976B-Standard-LTO-Ultrium/dp/B00AZTUDGC LTO-7テープは46ドルで売ってます。7対応ドライブも向こうは2000ドルから有ります。どうですか?
    自分はLTO5の中古ドライブを使用しててテープを米尼で買ってるという使用状況です

タグ:
PageTopへ