VMwareHAのIsolation Addressについて

VMwareHA構成で生じた障害について備忘録代わりにまとめておきます。

<環境>

・VI3 (3.5)

・ESXは2台

・VMFSはFC接続

・VMwareHA済み

先日、ESXホストの1台がHW障害で停止しました。その際、残されたESXに仮想マシンが引き継がれずに仮想マシンがパワーオフしたままとなってしまいました。

ログには、残されたESXが[isolated]されたことを示すエントリがありました。isolatedについて調査したところ、次のような状況であることが分かりました。

ESXホストの停止=ネットワーク応答の停止です。残されたESXは相手方の故障なのか、自分が故障したのかどうか、判定を行います。これは、あるアドレスに対してICMP Echoを投げて返事があるかどうか、という仕組みで判定します。

あるアドレス=isolation addressと呼ばれ、デフォルトではServiceConsoleのデフォルトゲートウェイがそのアドレスになります。今回はこのデフォルトゲートウェイが運用の中でPing応答を返さないよう設定変更されていたため、「isolation addressからの返事が無い=隔離モードに移行」となってしまったようです。

このゲートウェイアドレスは他社管理であったため、自社管理できるアドレスにisolation addressを変更する必要が産まれました。

変更は非常に簡単で、vSphere ClientでVMwareHAの構成画面で「詳細オプション」を開き、「das.isolationaddress1」を指定することで変更が可能です。

このdas.isolationaddress1は1~10まで指定することができ、複数指定した場合は全てに対して応答が無くなったとき、隔離モードに移行するようになります。

詳しくは、

http://www.atmarkit.co.jp/fserver/articles/vmwaredep/15/02.html

この記事に記載されています。