2023年4月12日 bookendサービス障害報告
2023年4月12日(水)にbookendサービスで発生いたしました障害により、お客様ならびに関係の皆様には多大なご迷惑をお掛け致しました事、深くお詫び申し上げます。
1.障害発生日時
2023年4月12日(水)12:00頃 ~ 同日12:45頃 (約45分間)
2.障害の内容
アイドックの管理するサーバ内で作動しているbookendサービスにおいて、外部からのリクエストに対して応答に非常に時間がかかっており、一部タイムアウトしてしまう状態でした。
現在は復旧を完了しており、すべての機能が正常に動作しております。
3.影響範囲
障害によるサービスの影響範囲は以下の通りです。
<bookendご契約社様の影響範囲>
・bookendへのAPIリクエストの応答に非常に時間がかかる状態でした
・データの破壊等はありませんでしたが、かなりのAPIリクエストに対しレスポンスできない(タイムアウトエラーとなる)状態でした
<bookendご利用ユーザーの影響範囲>
●bookend-view(ブラウザ閲覧)
・PDFコンテンツが閲覧できなくなっておりました
・EPUBコンテンツは問題なく閲覧できておりました
●bookendアプリ
・アプリケーション起動時にエラーが発生する場合がありました
4.障害発生からの経緯
2023年4月12日(水)
12:00 bookend管理コンソールの処理が重い、bookendに送ったAPIのレスポンスが遅い等の症状を確認
12:23 bookendご契約ユーザーに障害が発生している旨を通知
12:45 症状が改善。正常に動作していることを確認
13:09 bookendご契約ユーザーに障害復旧が完了した旨を通知
14:00 bookendのWebサイトで障害復旧が完了した旨を告知
5.障害原因
12:00頃にbookend管理コンソールにて、大量のコンテンツデータの検索処理が実行され、一時的にデータベースの負荷が急激に高くなった影響で後から実行されたHTTPリクエストもクローズされないままになり、サーバのリソースを徐々に圧迫してしまい、外部からのリクエストへのレスポンスにも非常に多くの時間がかかる状態となっておりました。
6.今回行った復旧対策
仮想サーバを追加し、該当サーバをロードバランサから外して再起動しました。
7.再発防止策
bookend管理コンソールで実行される処理を見直し、大量のコンテンツデータの検索に伴うデータベース負荷増大が発生しないように修正します。
また今回原因となったサーバリソースに関する監視項目を追加し、一定の値を超えた場合にアラートを出しようにします。
アラートが出た場合、仮想サーバの追加および該当サーバをロードバランサから外し再起動するようにします。