ANAのシステム障害で思うこと

2016/03/23

雑記

t f B! P L
先日、ANAのシステム障害で大規模に損害をもたらした

IT業界で働いていると誰もが経験するシステム障害。
ただの機械的な故障なら大したことなく、
何かの人為的なミスでデータが全部ロストしたとかやらかすと
まさに生きた心地しないw

今回のANAのパターンも人為的なミスか?と思ったが、
どうやら違うっぽいね。


以下、俺の個人的な想像。
どこかのサイトでちら見した程度なんだけど、
基幹サーバは全部で4台。
機種はNX7700iらしいということなので、OSはUNIX(HP-UX)だろうな。
そしてメーカーは当然の◯◯◯だ。
DBはOracleを使っているようなので、
高可用にするためにRACにしているはず。

つまりはサーバ4台でOracleRAC構成だったというわけだ。

サーバ1台がダウンしたことにより、
障害復旧させるために停止したサーバをクラスタから切り離そうとして
何かしらの要因があったかわからんが
クラスタからノード(サーバ)が次々とダウンしていった感じかな?

上のITmediaのサイトによると原因は同期による問題か?とか言われているけど、
現時点で考えられる原因は3つのどれかだと予想。
 1.OracleRACの構成がオカシイ
 2.共有ディスク(ストレージ)の設定が間違っていた
 3.そもそも操作したオペレータ?SE?のレベルが低すぎた
1.2.については受注したメーカーのSEスキルがショボい話だし、
受け入れた発注側もショボい話。
3.も同じか。

そもそもOracleRACやHP-UXとかほぼ専門的な知識が必須だろうに。
管理がロクにできもせずにそんな高価なOSやDBを使っても
それを使いこなす人間のスキルが低過ぎたら意味ねーわな。

セキュリティ対策とかも一緒で、
どんだけ堅牢なセキュリティシステムを作り上げても
それを管理・利用する人がシステムに疎かったら意味なし。
ちょっと古いけど「ファイヤーウォール」っていう映画がまさにその典型例。


いやー、こういうニュースを見ると
うちの会社で起こっている障害とかが本当にショボく見えるわーwww
OracleRACとかHP-UXとか全然使ってねーもん。
クラスタすら使ってない。
サーバは全てWindows一択。
流石にそれもどうかなと思うけどね・・・。


検索

Blog Archive

Popular Posts

About Me

自分の写真
性別:男
年齢:ついに40over
趣味:Snowboard、パソコン、iPhone、子育て

仕事:ユー子の社内SEとしてサーバ、NW等のインフラ全般をやってます

日々生活していく中で思ったことなどをつらつらと書いていきます。

どうぞよろしく!

ブログランキング

ブログランキング・にほんブログ村へ

QooQ