VMwareHA構成で生じた障害について備忘録代わりにまとめておきます。
<環境>
・VI3 (3.5)
・ESXは2台
・VMFSはFC接続
・VMwareHA済み
先日、ESXホストの1台がHW障害で停止しました。その際、残されたESXに仮想マシンが引き継がれずに仮想マシンがパワーオフしたままとなってしまいました。
ログには、残されたESXが[isolated]されたことを示すエントリがありました。isolatedについて調査したところ、次のような状況であることが分かりました。
ESXホストの停止=ネットワーク応答の停止です。残されたESXは相手方の故障なのか、自分が故障したのかどうか、判定を行います。これは、あるアドレスに対してICMP Echoを投げて返事があるかどうか、という仕組みで判定します。
あるアドレス=isolation addressと呼ばれ、デフォルトではServiceConsoleのデフォルトゲートウェイがそのアドレスになります。今回はこのデフォルトゲートウェイが運用の中でPing応答を返さないよう設定変更されていたため、「isolation addressからの返事が無い=隔離モードに移行」となってしまったようです。
このゲートウェイアドレスは他社管理であったため、自社管理できるアドレスにisolation addressを変更する必要が産まれました。
変更は非常に簡単で、vSphere ClientでVMwareHAの構成画面で「詳細オプション」を開き、「das.isolationaddress1」を指定することで変更が可能です。
このdas.isolationaddress1は1~10まで指定することができ、複数指定した場合は全てに対して応答が無くなったとき、隔離モードに移行するようになります。
詳しくは、
http://www.atmarkit.co.jp/fserver/articles/vmwaredep/15/02.html
この記事に記載されています。