【特集】KDDIの大規模な年末年始の障害における根本原因と対策(後編2) ( 2013-01-26 02:30:00 )
KDDIの年末年始に発生した最大180万規模の大規模障害の根本原因と対策に関する特集の最後は、取材時の質疑応答についてレポートする。
ここまでの前編・後編1と重複する内容も含むが、下記が大まかな質疑応答の内容とそれに対する考察だ。
質疑応答
- 設定ミスおよび手順書の漏れなどが事前に発見できない管理体制に問題は無いのか?
設定ミスは、信号制御装置とau ID認証用DBシステムに存在していたが、各種設定項目は、社員が決定し、網羅的に管理されており、関連する複数部門で共有化され相互チェックするというスキームは構築されている。その結果として、今回の障害の後にセンター側コア区間における各種設定パラメーターを再チェックした結果として、他の設定ミスが無いことを確認したという。
チェックすべきパラメータの数は非公開ということで差し控えるが1%未満の誤りであった。
関連して、基地局側のセンター側コア区間とつなぐ設定は全国共通であり、局ごとの設定はエリアごとに実施しており、設定変更の履歴も管理されており、今回の障害による各基地局の個別設定の確認は行なっていない(要因はなく、確認が必要ではない)。
それらが致命的な障害に繋がっているだけに、十分な管理体制が成せているとは言い難いが、人為的な設定ミスを0にすることは容易ではないという前提も踏まえて、管理以外のシステムテスト・負荷テストなどによる問題の洗い出しを強化することが期待される。
手順書の漏れについては、そもそもアラームが発生せずに手順が無い前提での症状であったことから、症状に対する手順ではなく、バグも含めた手順書に記載の無いアラーム発報や症状での運用ルール確立や、正常または異常であることを確認する手段がなされていない事が問題であったといえる。
手順書の見直しは行なっており、抜け漏れは解消されるはずだが、例外処理と判断ができる運用体制の強化が期待される。
- 系列会社、外部SIer等、契約スタッフへの依存によりチェック機能が十分に働いていないのではないか?
オペレーターに派遣・契約スタッフが含まれたり、社外からの機器・ソフトウェアの調達はあるが、社員が責任を持って管理・チェックする体制はできているとのことであった。
体制の不備が無いとするならば、管理・判断すべき社員が機能を満たさなければならず、調達した場合は受入れ試験などによる品質保証のレベルを高める必要があるはずだ。
それらが不十分であったという結果だけを見れば、不足している事の内部チェックが不十分であり、客観的な外部からの監査・検査のような取り組みも、必要かもしれない。
- 処理能力を強化しても、利用者数の増加により同様な問題が起きうるのではないか?
障害前の2倍の処理能力に増強するだけではなく、処理能力を越えた過負荷発生時の代理応答などの仕組みにより耐えうる様な改善を図っており、また加入者増などに対する増強計画も別途行なっており、状況により前倒しで実施もしているとのことであった。
過負荷状態の退避処理が網羅的に設計・実装されており、運用により、負荷状況の推移などを監視できれば、同様な問題は発生しにくい状況になるであろう。
しかしながら、加入者増に伴う段階的な0時台の高負荷ピークの上昇は、設計上として十分なサイジングができていたとしても、監視レベルでは不十分な結果であり、また、過負荷テストが実施されていないか不十分であったはずだ。
- 大晦日の0時過ぎに何故に過負荷が発生し、それらは解消しうるものなのか?
23時台の負荷状態に比して約7倍の高負荷が0時台に発生することを11月には掌握し、12月初旬にサーバ増強を実施している。 加入者増という必然的な理由だけでではなく、ピーク負荷を発生する原因はアプリからのアップデート(バージョンアップ、コンテンツ更新)であり、ピーク負荷に耐えられる増強と、仮に過負荷が発生しバッファオーバーフロー状態になった場合においても代理応答など機能追加とパラメータ設定の修正により解消できるとしている。
対策としては、障害解消に至っていると思われるが、アプリの定時アップデートやコンテンツ更新は、各キャリア共通の課題であろうことから、協調してアプリデベロッパーに対して分散化の要望を伝えての根本原因の解消に向けた取り組みを期待する。
- 対策に1~2億円を投ずるという一部報道があったが、設定見直しすらできない規模の予算ではないのか?
1~2億は、過負荷試験装置に関する予算であり、その他の対策は含まれていないとのことであった。
過負荷試験の設備予算としては、十分なレベルであり、不十分であった過負荷試験が実施できることで、今後の問題点の洗い出しに価値の高いシステム投資だと言える。
但し、今後は、試験項目・テストケースの洗い出しに抜け漏れが無いことが期待される。
既に抜け漏れがあっただけに、第三者検証またはテスト仕様の外部チェック(コンサルティング等)も必要かもしれない。
- 品質保証に対する取り組みはどのようになっているのか?
質問リストには含めていたが、手順や管理体制の話と混ざってしまい、回答確認が漏れていた。
品質保証において懸念すべきはアラーム誤発報のケースで、機能テストとして、アラームが発報したログ関連エラーのテストが実施されていない、あるいはテスト結果の評価が不十分であった事は間違いない。
エラーがあってもアラームを鳴らさないという正常な動作ができていない事を事前のテストで確認できていれば、未知のアラーム連続鳴動という事態に、運用担当者が出くわすことも無かったであろう。 仮にテストが不十分であったとしても、手順書を作成するにあたり、その事象を確認しながら作成していれば、設計・想定と異なる挙動に気づいたであろうことから、仕様から手順書を起こしているだけではないかという疑念を抱いてしまう。
ベンダーがテストを実施しているならば、KDDIは受入検査が不十分だったという事になる。 何れにしても、発生した1つの事象からということで、想像の域は越えないが、品質保証に対する取り組みに改善の余地があることは間違いないはずだ。
- 手順書漏れにより、運用担当者の判断のみでエスカレーションせずに操作を実施していないか?
実際にはエスカレーションを伴い、上長が判断をしているが、上長には正しい情報は伝わっていなかったという。
結果として、バグによるアラーム誤発報が0:05、機器リセットという対処が0:17とわずか12分で重要な判断に至っているが、30分以内での解消というプレッシャーの中、安易なリセットという対処が、障害の無いネットワークに通信断という最悪な障害を生み出したという最悪な事態だ。
安易かどうかの基準としては、LTEネットワーク障害を確認できていないはずであり(発生していない)、機器の故障なども含めての判断が必要になるはずだ。
上長も、事象が違う事に対しての説明が不十分であったとしても、LTEネットワークの障害が発生している事を確認はできていないはずであり、年末と同様の手段でGOを出すことは正しい、あるいは冷静な判断ができていたとは言い難い。
運用担当者にしても、エスカレーションした上長にしても、手元の端末で4G LTEのデータ通信が生きている事を確認できれば、他のエリア・基地局に接続しているLTEの動作状況を確認したり、認証エラーでインターネット接続ができない状況ならば、インターネットゲートウェイのトラフィックも減少している事を確認するなどの手段も考えられる。
その他、いくつもの手段が想定されるが、最後の手段の機器リセットに至るまでのプロセスは、十分に確立しているとは言い難い。さらにエスカレーションするか、上が無いとするならば、別なエキスパートや、エリア・拠点との横連携による確認作業なども、運用ルールに追加するなどの取り組みを期待する。
今回の訪問取材で得た回答としては、今回の年末年始と同じ障害は発生しないような取り組みがなされており、類する障害も発生しにくい予防策が進んでいるといえるだろう。
しかしながら、想定外のインシデントにまで対応しうる運用チームを中心とした育成強化と、個々のスキルに依存しないドキュメント類の整備、テスト品質の向上など、かなり時間を要するはずだ。
また、運用・障害事例を踏まえて、リソースやパフォーマンスなどのモニタリングを中心とする機器やシステムの機能強化(あるいは、実装されている機能の活用)や段階的な閾値の設定なども重要な課題となるだろう。
発生した障害や課題に対処するだけではなく、障害・課題をプロアクティブに見つけ出し、先手を打って対策できるような体制・仕組み・システム作りと、想定外な事態に対応可能な運用ルールまでも含めた改善に期待したいところだ。
関連記事
- 『KDDIは、年末年始に発生したau 4G LTE関連の障害について、取材依頼のあったメディアに対して実施した。』
http://app-coming.jp/364.html
- 【特集】KDDIの大規模な年末年始の障害における根本原因と対策(前編)
http://app-coming.jp/367.html
- 【特集】KDDIの大規模な年末年始の障害における根本原因と対策(後編1)
http://app-coming.jp/368.html
- 【特集】KDDIの大規模な年末年始の障害における根本原因と対策(後編2)
http://app-coming.jp/369.html