【1月23日追記】12月23日、24日に発生しました障害に関するご報告

Kazunari Kida
skeb_jp
Published in
Dec 24, 2022

いつもSkebをご利用いただき、誠にありがとうございます。

12月23日12時よりskeb.jpにアクセスできない大規模な障害が発生しておりましたが、12月24日07時に復旧いたしました。

12月23日、および12月24日が納品期限のリクエストは納品期限を12月25日23時59分までに延長させていただきます。

みなさまには多大なご迷惑をお掛けしましたことをお詫び申し上げます。
本障害につきまして詳細をご報告させていただきます。

概要

日時: 12月23日12時22分〜12月24日7時00分 (JST)
ダウンタイム: 18時間38分
内容
: skeb.jpにアクセスできない不具合
原因: SkebはすべてのサーバとシステムをHerokuに設置していたが、障害発生時刻より同サービスのアカウントが理由の通知なく利用できなくなった。
解決: Herokuの一切の利用を中止し、すべてのサーバとシステムを別のクラウドサービスに移管したことで復旧。
お客さまへの対応: 12月23日、および12月24日が納品期限のリクエストは納品期限を12月25日23時59分まで延長。

時系列

12月23日12時22分: skeb.jpにアクセスするとHerokuのエラーページが表示される。
12月23日12時27分: 社内で障害として認知。
12月23日12時30分: Twitterにて障害のお知らせをツイート。
12月23日12時31分: プログラムのヘルスチェックに問題がないことを確認。
12月23日12時32分: スケブ社とHeroku Enterpriseを締結しているHeroku日本代理店であるセールスフォース・ジャパンに連絡。Herokuのサポート窓口に直接連絡するように案内を受ける。
12月23日12時55分: Herokuのサポート窓口に連絡。
12月23日13時04分: Herokuのサポート窓口から応答がないため、セールスフォース・ジャパンに再度連絡し、同社が状況確認を行うように依頼。
12月23日13時14分: Herokuの復旧時期が未定のため、Herokuの一切の利用の中止を決定。別のクラウドサービスへの移管を開始。
12月23日14時19分: 納品期限延長の方針を決定し、記事ツイートにてお知らせ。
12月23日14時21分: Twitter上で「Skeb」という単語をツイートや検索した方に対して、障害情報のツイートが表示されるようにプロモツイートを設定。
12月23日15時14分: 新しいクラウドサービスにデータベースの移管が完了。
12月23日18時28分: セールスフォース・ジャパンより、同社もHerokuに連絡したが応答がない旨の連絡を受ける。
12月23日20時24分: 新しいクラウドサービスにステージング環境の構築が完了。
12月24日04時32分: 新しいクラウドサービスに本番環境の構築が完了。
12月24日04時55分: skeb.jpのドメインの接続先をHerokuから新しいクラウドサービスに切り替えを実施。
12月24日07時00分: すべての機能が動作することを確認。
12月24日13時00分: 障害が復旧したことを本記事とツイートにてお知らせ。
12月28日14時00分: セールスフォース・ジャパンのご担当者の方々が当社を訪問し、Herokuの障害ではないことを確認し、同社が把握している状況の詳しい説明を受ける。
01月23日12時00分: セールスフォース・ジャパンとの協議を経て、本件が完全に解決。

その他

  • Herokuの制限によって海外に設置されていたSkebのサーバは、別のクラウドサービスに移管にしたことによって、新たに日本国内に設置されることになりました。日本国内からのアクセスが大幅に高速化されます。
  • スケブ社ではエンジニアに対して開発環境の指定を行わず、各々がWindows、Mac、Ubuntuといった好みのOSを用いて開発しています。
    どのような環境でも開発ができるように、Skebのすべてのシステムはオフラインの仮想環境で動作するコンテナイメージを作成しています。
    別のクラウドサービスに移管する事前の検討や想定は今まで行ったことがありませんでしたが、今回このコンテナイメージがあったことで、事前準備なく1日未満でHerokuから新しいクラウドサービスに問題なく移管することができました。
  • 今回の障害をきっかけに、2023年1月より、夜間に障害が発生し作業にあたった従業員に対し、深夜残業および休日出勤による法定割増賃金に加え、3万円の現金を支給する「障害対応手当」という制度を新設しました。
    今回の障害は制度新設前であったため、手当ではなく福利厚生の一環として、エンジニア4名に対し1人あたり3万円のAmazonギフト券を夜間直ちに支給しました。
    また、家族がいる社員も多い中、社員の大半がクリスマスという重要なイベント期間中に復旧作業にあたったことから、スケブ社では12月31日から翌年1月4日を年末年始の休日としておりますが、2022年に限り、12月29日、30日を会社都合の休業日に指定しました。
  • Skebでは月間約5億円の取引があり、今回の障害で1,500万円相当の取引の機会損失が発生しました。
    本件発生時から夜間も親身にご対応いただき、さらに年末に弊社までお越しいただき本件に関する情報をご共有いただきましたセールスフォース・ジャパンのご担当者さまには感謝いたします。
    1月23日に、本件はセールスフォース・ジャパンのご担当者の方々との協議を経て、完全に解決いたしました。
  • Skebが利用不可能となる事例は、サービスリリース日である2018年11月30日に発生したアクセス過多による障害を除き、事実上今回が初めての大規模障害となりました。
    クリスマスを目前に納品タイミングを調整されていたクリエイターの方々もいらっしゃいましたが、メールマガジンの配信システムも障害で停止していたことから、納品期限延長の告知がTwitterと記事のみとなってしまい、大きく混乱を招く事態となってしまいました。
    今後メールマガジンの配信は外部のサービスの利用も検討してまいります。
  • ご利用の皆様には多大なご迷惑をお掛けいたしましたので、年末年始のリクエスト手数料を無料とさせていただきます。

みなさまには多大なご迷惑をお掛けしましたこと、重ねてお詫び申し上げます。本当に申し訳ございませんでした。
今後ともSkebをよろしくお願いいたします。

--

--