テレワーク時代のITインフラ・サービス運用
– 確実な障害通知のために! –

TOP > コラム 2020年6月26日

テレワーク時代のITインフラ・サービス運用
– 確実な障害通知のために! –

テレワーク時代のITインフラ・サービス運用 - 確実な障害通知のために!

新型コロナウイルス(COVID-19)感染抑制を目的に、「緊急事態宣言」がまず東京を含む7都府県に対して発動されたのは、去る4月7日のことでした。事業所に対して出勤者を7~8割削減することが求められたため、弊社でも急遽、テレワーク体制に入りました。

弊社では「NetSupport Manager」というリモートアクセスツールの自社製品を持っていたので、最小限の準備だけで短期間でテレワークのできる環境を導入し、業務も滞りなく継続できました。しかし、業種によっては出勤者の削減が難しかった職場もあったことでしょう。

ITインフラやサービスの運用管理も、そのひとつであったと思います。特にテレワークで需要が爆発的に伸びたITサービスやデータセンターの現場では、有人監視を含む維持管理のために、多くの出勤者が業務にあたっていたと聞いています。

緊急事態は5月25日に解除され、都内の電車など公共交通機関の混雑は徐々に回復してきていますが、まだコロナ前の水準に戻ってはいないように思います。緊急事態解除後もテレワークを継続している企業が少なくないためでしょう。

1. 緊急事態による出勤者抑制。ITインフラ運用の現場では?

調査データがあるわけではないのですが、周囲で聞いている話では、ITインフラ部門は障害発生に備えて通常通り出勤していたところも少なくなかったようですが、ほとんどの職場ではやはり出勤者を抑制し、自宅待機等の体制を取っていたところが多かったようです。

オープンソースの「Zabbix(ザビックス)」のような監視(モニタリング)ツールが導入済みで、システム監視を無人化し、障害発生時にはメール等で通知できるようにしていれば、通常の出勤者数は最低限に抑え、必要に応じて出勤して障害対応にあたる、といった対応が取れていたことと思います。

監視ツールは、サーバーやネットワーク機器など、ITインフラの無人監視による障害感知・検出の仕組みとして用いられます。ネットワーク機能を持つほとんどの機器に標準で搭載されている「Ping(ピンまたはピングと読むことが多いようです)」コマンドと同様、対象のサーバーやネットワーク機器にコマンドを送って返答が返ってくるかどうかで、サーバーが正常に稼働しているかどうかを調べる「死活監視」が、最も基本的な機能といえます。

監視ツールには、死活監視以外にもトラフィック(通信量)やCPU負荷など、監視対象機器の動作状態や障害予兆の確認に必要なデータを定期的・自動的に収集し、異常があれば通知する機能も搭載されています。通知は、大抵は電子メールの自動送信によって行われます。

オフィスでのデスクワークであれば、PCに向かっていることが多いので、障害通知のメールが届いてもすぐに気付けるでしょうし、通知先のメールアドレスを携帯電話のアドレスに設定しておけば、外出中でもメールによって異常発生を知ることも可能です。

しかし、例えば真夜中や早朝といった就寝時間帯の障害や移動中、席を外した時など、メールに気付かなかったり、通知が大量のメールに紛れていて見落としたりと、メール通知にはそれなりの限界もあるでしょう。

一番確実な連絡方法といえば、やはり電話をかけて鳴らすことでしょうが、無人の状態で誰が電話をかけるのか?という、根本的な課題がありますよね。


2. 監視ツールからのメール通知で電話をかける「急コール」

そこでおすすめするのが「急コール」です。
急コールは、メールを急コール宛に送っていただくと、その内容に応じて指定した電話番号に電話を発信するクラウドサービスです。メール通知の限界を克服し、障害発生を運用の担当者や責任者に確実に「伝える」「気付かせる」という、監視ツールの通知機能本来の目的を達成できます。

「メールを送って電話をかける」「誰かが取るまで(気付くまで)何度でも電話をかける」という基本的な機能にとどまらず、メールのタイトルや本文に含まれるキーワード文字列によって電話の発呼を判定するキーワード解析機能、架電先の担当者に電話のプッシュボタンで応答してもらうことで、通知が到達したかどうかを確認できるレスポンス取得機能も備えています。

監視ツール側のメール通知機能と急コールの組み合わせにより、障害発生時の関係者への連絡到達性の向上が図れますので、現地対応のための出勤者を最低限に抑えたり、通常の出勤者はゼロにして必要な時だけ随時出勤する、という、テレワークを前提とした運用体制づくりも可能となるでしょう。

なお、システム運用管理は弊社ことワイドテックの創業事業でもあり、弊社ではさまざまな製品やソリューションを用意しています。テレワーク中の自宅から管理サーバーなどへのアクセスが可能な環境なら、Windows向けリモートコントロール(遠隔操作)ソフトウェアの「NetSupport Manager」を使うと、リモートから実行可能な障害回復作業なら、テレワークだけで遂行・完結できるでしょう。

また、障害発生後の回復を自動化するには、ITインフラ運用自動化ソリューション「POLESTAR Automation」もあります。POLESTAR Automationの点検・監査機能を活用すると、監視ツールではカバーできない視点での日常のシステム点検(設定ファイルやログなどの異常検出)により、障害発生の予防に役立ちます。

さらに、弊社は前述の監視ツール「Zabbix」を開発したZabbix社のパートナーでもありますので、Zabbix製品と急コールを合わせた監視・通知のソリューション導入や、運用支援・コンサルティングサービスも提供可能です。


3. テレワークが「ニューノーマル」になる日に向けて

テレワークが「ニューノーマル」になる日に向けて

後半、少し宣伝の匂いがきつくなってしまったかもしれませんが、各種の自粛要請が段階的に解除されて行く中でも、先日も東京都で「第2波」の襲来を予感させるような新規感染者数の多い日が続きました。まだまだ油断は禁物でしょう。

ここ数年、「働き方改革」が喧伝されつつも導入が遅々として進まなかったテレワークでしたが、コロナ禍によって否が応でも広まりました。そして、社会全体でコロナ後の「新しい生活様式」「ニューノーマル(新しい日常)」の模索が進む中、テレワークはニューノーマルとして、定着へと向かいつつあります。

ポスト・コロナ時代にも安心できるITインフラ・情シス運用業務に、急コールやワイドテックのインフラ運用支援製品をお役立ていただければ幸いです。