効果的なシステム監視できていますか?障害対応の流れとポイント
この記事では、システム運用をするうえで重要となるシステム監視の目的や障害の定義、万が一障害が起きた時の対応の流れ、伝達ミスや連絡の遅延を阻止できる「急コール」について紹介します。
IT化が進む近年ではあらゆるサービスにシステムが導入されており、もはやシステム無しでは成り立たないと言っても過言ではありません。そのため、システム障害は重大な課題であり、障害が起きた際には迅速かつ的確な対応が求められます。
特定メールの受信を電話で知らせる「急コール」
詳しくはこちら
1. システム監視の目的と障害の定義
システム監視の目的は、インフラやサービスの障害をすばやく発見することです。
そもそもシステム障害とは、“ユーザーがサービスを利用するうえで不都合を感じ、かつサービスプロバイダの想定外の事象”を意味します。そのため、早急に対応しサービスが利用できるように復旧させなければなりません。
しかし、システム障害には連携サービスのトラブルやソフトウエアのバグなどのさまざまな要因が考えられ、原因をすぐに特定できないケースも。そのためシステム監視によって障害にいち早く気付くことが重要なのです。
<システム障害の主な要因>
- ソフトウェアのバグ
- システム性能や容量不足
- インフラの考慮・設定漏れ
- 不慮の事故によるもの
2. システム監視の効率化を実現できていますか?
ITシステムの継続的な稼働は、ビジネスを支える重要な要素になります。しかし、複雑なシステム管理に頭を抱える企業も少なくありません。以下は、IDCジャパンによる「システム運用管理に関する課題」の調査結果です。
34.6% | 運用管理にかかるコストが大きい |
30.8% | 30.8% 運用管理を担当する人員が不足している |
26.1% | 運用管理の自動化ができていない |
24.2% | 障害が起こってもすぐに原因の特定や影響分析ができない |
23.7% | システムの一元管理ができていない |
20.9% | 運用プロセスが標準化されておらず属人的な管理になっている |
20.4% | システムの全体構成が把握できていない |
16.1% | IT全般統制に対する運用管理での対応ができていない |
15.2% | サービスレベルが安定していない |
14.2% | 運用管理ソフトウエアを効果的に使えていない |
14.2% | 事業継続性への対応ができていない |
12.3% | グリーンITに対する運用管理での対応ができていない |
9.5% | 障害によるシステムダウンが多くなっている |
8.5% | 仮想化した環境の運用管理がうまくできていない |
6.6% | 運用ミスによるシステムダウンが多くなっている |
0.9% | その他 |
2.8% | わからない |
こうして見ると、システム監視を効率的に行えていない企業が実に多いことがわかるでしょう。しかし、こういった課題が常態化するとユーザーからのクレームが多くなり、最終的にはユーザー満足度の低下やコストの増加、ビジネス機会の損失などにつながります。そのため、まずは自社のシステム監視体制を見直すことが大切です。
3. システム監視の要「障害対応」を見直す
効率的なシステム監視では、「どこに問題があるのか」の洗い出しが重要になります。そのため、以下のような障害が発生した場合の対応の流れを見直し、改善余地のある方法や体制にメスを入れましょう。
- 障害時の状況確認方法
- システム担当者の連絡先リストと連絡方法
- 復旧完了の条件
- 復旧後のクライアント担当者への連絡先と連絡方法
4. 障害対応の流れを確認
基本的な障害対応は、以下の3ステップで行われます。
1:エンジニアへ連絡
障害を検知したら、復旧作業を行うエンジニアに連絡をします。
あらかじめ復旧担当エンジニアのをリストした連絡先リストを用意しておくと、夜間の場合も連絡がスムーズに済みます。
2:障害の影響範囲を確認
エンジニアを現場へ向かわせたら、障害の影響範囲と状況を整理します。システム障害は複数の要因が組み合わさって発生するケースがほとんどなので、障害が起こっている箇所を特定するとともに、関連する障害がないかも確認しましょう。
また、サーバー障害の場合は大規模なデータ消失や情報漏えいが発生する可能性も考えられます。その場合はサーバーへリモートログインするなどして状況を確認し、影響範囲を確認しましょう。
3:障害の復旧作業を行う
対応手順に従って復旧作業を行い、作業完了後は復旧確認を行います。障害が解消しない場合や手順書以外の対応が必要な場合は、エンジニアの判断に基づき、障害原因の切り分けや特定を行います。
その後、復旧が完了したら状況を整理して、クライアントへ報告。復旧作業完了の連絡を行います。
5. 伝達ミスや連絡の遅延を改善する「急コール」
システム障害の対応は、遅くなればなるほど業務への影響も大きくなるため、「いかに早く復旧できるか」が重要です。しかし、実際にはシステム担当者への連絡でミスが発生したり、電話がつながらなかったりすることが多く復旧作業開始までに時間がかかるケースも少なくありません。そのため、障害対応手順の「担当者への連絡」を効率化することで、被害を最小限に抑えることが可能です。
ワイドテックの自動電話システム「急コール」を利用すれば、アラートメール通知と同時にシステム担当者へ自動で電話をかけることが可能。伝達ミスや連絡の遅延を予防できます。また、アラートメールを受信してから最短10~15秒程度でコールが始まるので、個別に連絡するよりも時間短縮になります。
「急コール」はまさに“効果的なシステム監視を実現するクラウドサービス”と言えるでしょう。
6. まとめ
システム監視は、インフラやサービスの障害をすばやく発見するために行います。障害にいち早く気付くことは迅速な対応につながり、ユーザーの満足度低下を避けられます。障害発生時の対応をよりスムーズにするためにも、システム監視の要である障害対応とその流れを見直し、できることから改善を行いましょう。
自動電話システム「急コール」を利用すれば、こういった障害時の対応スピードを大幅に早められます。この機会に導入を検討してはいかがでしょうか。
資料やお見積りなどは、お問い合わせフォームまでご相談ください。
特定メールの受信を電話で知らせる「急コール」
詳しくはこちら