e29d22cb-61f0-4b0c-69cc-e5476c576c3f

1: 海江田三郎 ★ 2017/03/03(金) 13:07:16.84 ID:CAP_USER.net
http://jp.techcrunch.com/2017/03/03/20170302aws-cloudsplains-what-happend-to-s3-storage-on-monday/

AWSのS3クラウドストレージが4時間にわたってダウンした件は、当然ながら、強い批判を浴びた。AWSは検証レポートを発表し、この事件について原因と経過を詳しく説明した。技術的情報と将来に向けての防止策も含まれている。直接の原因は、やや平凡な理由だが、ヒューマンエラーだった。あるエンジニア―ここではジョー(仮名)と呼んでおく―が間違ったコマンドを入力してしまったということだ。ジョーはあるサブシステムをシャットダウンするつもりだった。それ自体は日常行われるオペレーションだった。しかし月曜日、バージニア州北部データセンターではルーチンワークが大変な問題を引き起こした。ジョーは正規の特権ユーザーであるため、システムをシャットダウンするコマンドを入力する資格があった。ただしこの作業はAmazonが「確立された手順書(established playbook)」に従ったもので、ここではS3サブシステムの少数のサーバーを停止することが意図されていた。ところがジョーは誤って多数のサーバーを停止するコマンドを入力してしまった。

素人の表現でいえば、地獄のような騒ぎが持ち上がった。
Amazonはもっと技術的な表現をしているが、問題のエラーはカスケードしてバージニア州北部データセンター全体に影響を与えることになった。ジョーのエラーは決定的に重要なサブシステムを停止してしまい、センターのデータ保存能力の大きな部分を失わせた。システムは再起動を余儀なくされたが、この間S3はリクエストを処理することができなくなった。AWS自身のダッシュボードも機能を失い(これはかなり恥ずかしい事態だ)、S3の稼働状態を確認できなくなった。そして外部の世界も影響を感じ始めた。一般ユーザーはお気に入りのサイトが開かなかったり、アプリが異常な動作をしたりするのに気づいた。昼頃、AWSはサービスの復旧に全力を上げていたが、なにぶんシステムの規模が大きすぎた。AWSは何年にもわたってダウンしたことがなく、従って全システムの再起動を行ったこともなかった。S3はいわば自分自身の成功の犠牲になった。再起動をかけるとシステムは安全性のチェックとメタデータの整合性の確認を始めた。ところがこれは予想外に時間を必要とした。こうしたヒューマンエラーによる事故の再発を防ぐためにAWSでは運営手順に変更を加えるというレポートによれば「この〔事故の原因となった〕ツールに修正を加え、作動速度を遅くし安全策を追加した。〔停止要求に対し〕配下の最小限のレベルにおけるサブシステムのみを停止させるようにした」という。これでジョーのような慌て者が同様のミスをするのは防げるだろう。

しかしAWSでは、もっと根本的にS3のサブシステムの構成の見直しも行っている。サブシステムをセル(cell)と呼ばれるさらに多数の区画に分割し、一挙に大量のサーバーが停止されないようにするという。これは過去にも試みられたことがあったはずだ。ともかくS3のサブシステムは許容可能な時間で再起動するには大きすぎた。

AWSのレポートは謝罪と改善の約束で締めくくられている。単純なヒューマンエラーで始まったものの、影響が連鎖反応で急速にデータセンター全体に拡大して大事故となった。AWSのシステムがこの種の深刻なエラーを想定せず、したがってそのカスケードを防ぐ機能が組み込まれていなかったのが惨事の根本的な原因だったようだ。


2: 名刺は切らしておりまして 2017/03/03(金) 13:09:18.13 ID:dVvNCxJH.net
ジョーは生きているか?

8: 名刺は切らしておりまして 2017/03/03(金) 13:17:23.32 ID:zqktoCwz.net
>>2
気の弱い奴だと自殺してもおかしくないよな

4: 名刺は切らしておりまして 2017/03/03(金) 13:12:58.63 ID:IIpA1hQt.net
足首コンセント現象

9: 名刺は切らしておりまして 2017/03/03(金) 13:18:05.50 ID:BJDDoB4B.net
うちのPentium2も再起動に許容できない程の時間を要するわ

10: 名刺は切らしておりまして 2017/03/03(金) 13:19:04.26 ID:gIDScv2u.net
クラウドは今ひとつ信用出来ねぇわ

11: 名刺は切らしておりまして 2017/03/03(金) 13:19:17.51 ID:WmAAeQ7u.net
やっぱ粛清されるの?

16: 名刺は切らしておりまして 2017/03/03(金) 13:37:16.23 ID:R1HD4lOQ.net
>>11
こういうのやってるの、年俸2万ドル以下のワーカーだから、責任は問われない。

叱責はされるだろうけどね。

システムとマニュアルが不味かったという話になるだろうし、再起動が法外な時間かかったのは彼の所為ではない。

27: 名刺は切らしておりまして 2017/03/03(金) 14:25:18.04 ID:l+9lGnPy.net
>>16
amazonのシステムを停止できる、正規の特権ユーザーがそんな年俸のワケねーだろ

13: 名刺は切らしておりまして 2017/03/03(金) 13:21:34.06 ID:Vx38f45c.net
マイクロソフトとかグーグルのような海外IT企業は基本的に不具合が有っても
連絡先もろくなのが無いし、基本返事なんか返ってこないだろうし
そこに本当に重要なデータを預けるのってかなり怖いな

23: 名刺は切らしておりまして 2017/03/03(金) 13:53:51.16 ID:golG5Ikv.net
>>13
MSは上客だけには丁寧、グーグルは一律に機械的な対応
だからグーグルの有料サービスへの課金は推奨しない

17: 名刺は切らしておりまして 2017/03/03(金) 13:41:12.96 ID:brIKy9gB.net
>全システムを再起動を行ったこともなかった
SEからするとこの状態からよく短時間で復旧したなと思う
普通は手順の確認だけで半日以上かかる
むしろどこから手をつけて良いか途方にくれてもおかしくない

19: 名刺は切らしておりまして 2017/03/03(金) 13:45:29.06 ID:vAgndHBJ.net
DB削除してバックアップも取れてなかったとかよりましか。

20: 名刺は切らしておりまして 2017/03/03(金) 13:47:41.92 ID:aVLwcXYl.net
クラウドとかに個人情報上げる奴は情弱

51: 名刺は切らしておりまして 2017/03/03(金) 22:41:59.60 ID:i7o1uCDZ.net
 ファーストサーバの真似か。

52: 名刺は切らしておりまして 2017/03/03(金) 23:35:12.34 ID:BE5Xu8DU.net
ほら言わんこっちゃない
だからクラウドとかやめとけっつってたんだよ
落ちたとき誰が責任取るんだよって話

24: 名刺は切らしておりまして 2017/03/03(金) 13:54:29.82 ID:94QZi1K+.net
俺らがクラウドを馬鹿にしている間にAWSもAzureも失敗から学びながらどんどん進化していく。

29: 名刺は切らしておりまして 2017/03/03(金) 15:07:00.09 ID:mLKAaRbC.net
だからいつもいつもENTER押す前に画面に向けて指差し確認しろっつってんだろ
俺の言うこと聞いときゃこんなんならず済んだんだよ

31: 名刺は切らしておりまして 2017/03/03(金) 16:24:06.26 ID:TKQLaPJb.net
システムがちゃんと聞いてやれよw。
「ジョー、いいのかい?このコマンド入力したら
大変なことになるよ。職を賭して入力するんだろうねw? YES NO」

36: 名刺は切らしておりまして 2017/03/03(金) 17:11:44.12 ID:MTFd3vNa.net
たったひとつのコマンドで全世界に影響与えるって怖いな

38: 名刺は切らしておりまして 2017/03/03(金) 17:25:04.76 ID:c+rSUq2J.net
むしろそういうコマンドを権限有るとは言え容易に実行可能な環境に問題あるんじゃね?

41: 名刺は切らしておりまして 2017/03/03(金) 19:05:03.11 ID:gkR7MHnK.net
クラウドを使わず「自己責任で行きたい」
クラウドを使って「責任は丸投げ」

さあ、どっちがいいか

46: 名刺は切らしておりまして 2017/03/03(金) 22:02:40.37 ID:GbA0UKOc.net
まあこうやって問題をつぶしていって盤石になっていくんもんだろ

49: 名刺は切らしておりまして 2017/03/03(金) 22:29:12.49 ID:hm8cMPoC.net
大規模にトラぶって4時間で回復とかむしろ神業かと思ったぜ。

54: 名刺は切らしておりまして 2017/03/04(土) 04:16:10.34 ID:SckSLxG2.net
コレが原因究明と防止策の見本だな

26: 名刺は切らしておりまして 2017/03/03(金) 14:13:20.63 ID:7f6cbCvm.net
こういう他人の大チョンボの話聞くと
自分の過去の大失敗がフラッシュバックしませんか