【障害報告事例】暫定コンフィグが再起動で消えて障害に ーーみずほ証券6月の障害 再起動したら情報消えた

 

 

事象

 

処理遅延が続いた後に処理が出来ず、サービス不稼働の事態に至った

 

 

原因

 

再起動したら消える暫定のコンフィグのまま本番稼動し、再起動した結果、暫定のコンフィグが消えて障害に至った。

 

 

恒久対応

 

  • メモリに入った暫定設定を永続ファイルに忘れずに書き込む
  • 設定後のダブルチェック
  • 本番運用前に動作テスト

 

 

>通信できなくなった理由は運用管理サーバーが外部接続サーバーとの通信に必要な「経路の情報」(三橋執行役員)を失ったからだ。みずほ証券は定期メンテナンスのため運用管理サーバーを2カ月に1回の頻度で再起動している。6月23~24日の週末に再起動したところ、経路情報が消えたという。

>みずほ証券は18年5月上旬、それまで使っていた外部接続サーバーが老朽化してきたため、入れ替え用の新たなサーバーを追加し、2系統での運用を始めた。53社分の外部接続機能を段階的に旧サーバーから新サーバーに移行する計画だった。

 ここで新サーバーについて、「暫定的な経路を設定するコマンドで設定してしまった」(同)。この設定だと運用管理サーバーの再起動で経路情報が消えてしまう。新しい外部接続サーバーは二重化していたが、同じ設定方法を採っていたため、再起動で本番機と待機機とも情報が消えた。

本来は再起動しても設定が消えない「正式なやり方」(同)で設定する必要があった。だが、53社の接続機能を全て移行するまで新サーバーは暫定的なものであると誤って認識し、暫定で設定するコマンドを使ったという。

>設定作業は関連会社に委託したが、三橋執行役員は「当社が確認した作業内容に沿って作業してもらった」と話し、障害の責任は自社にあるとの認識を示した。「チェックの甘さがあった」と反省し、今後、漏れがないチェック体制を確立していくとしている。

 

 

https://www.nikkei.com/article/DGXMZO33562260Q8A730C1000000/

 

 

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)