【IIJ GIOの裏側を語る#10】ナレッジが詰め込まれた運用管理システム

カテゴリー: 統合運用管理, 裏側を語る   パーマリンク
このエントリーをはてなブックマークに追加

『IIJ GIOの裏側を語る』連載企画の第10回です。

今回は、サービス基盤本部の福原が「ナレッジが詰め込まれた運用管理システム」をテーマに解説します。

執筆者の紹介

株式会社インターネットイニシアティブ
サービス基盤本部
サービス運用企画部 福原 亮

「第10回:ナレッジが詰め込まれた運用管理システム ~運用現場って大変ですよね~ 」

・滝のように流れるアラートはいったい何者か?

大変ありがたいことで、IIJでは多くのお客様の運用をアウトソース頂いています。IIJのサポートセンターでは監視システムで検知したアラートを、チケット管理システムに登録してオペレーションやエンジニアリングをしていますが、実にその数が、日に1万件を超えることもしばしば。歴史を振り返ると、この膨大なアラートを手作業で、要るもの要らないものを仕分けして、オペレーションしていました。そもそもいったいどんなアラートが出ているのか?と分析してみると、、、

障害検知と復旧が大抵は対になるので、50%近くは復旧メッセージです。それはまぁそうですよね。でもこれは原則オペレーションしないので、そもそも見ないようにすればよいだけですね。残りの50%は?というと、作業影響によるもの、アプリケーション不具合等でアクセスする度に検知しちゃうもの、といった類が結構多かったですね。連絡して見ると、作業影響です!とか、ログを調査していると誰かログインして何かやってる。など現場あるあるです。

事情はあるにせよ、作業に伴うアラートは作業前に連絡をもらって、アラートを静観/無視すればいいのでは?と安易に考えがちですが、何せ母数が多いので、オペレーターで対応するのはどうしても限界があります。であれば、機械的に消し込んでしまえばいいのでは?

・アラートフィルタリングシステム

そこで、開発に乗り出したのが”中継システム”と呼んでいる、アラートフィルター機能。要するに、ある一定期間、特定のアラートを機械的に無視フラグを立ててあげる。チケット管理システムはフラグをみて表示制御すればよい筈だ、と考えたわけです。発想はいたって単純ですね。

図1:アラートフィルター

理屈は単純なんですが、作業している側からすると作業前に運用者のために依頼や申請を出すのって、結構な負担ですよね。なぜって、すぐ作業したいのに、作業の前工程が増えるわけですし、いざ依頼しようと思ってもそもそも監視の設定情報を知らないと無視対象を伝えられなし、依頼ができない。。。とするなら、作業する側も依頼や申請が出しやすい方が良いわけで、依頼の仕方にも工夫が要るだろう。

そこで、申請画面、運用コントロールパネルと呼んでいますが、これを開いたときに、監視設定の情報を監視システムから引っ張ってきて、ノード情報、監視項目情報を画面に表示しています。そうしておけば、作業者も覚えていなくてもその場で確かめながら申請できます。

でも、障害中にすぐやりたい!といった場合に、運用コントロールパネルをポチポチ開くもの、ちょっと手間なんじゃないか?と考えて、ポータル画面でも操作出来るように、改良しました。単純にポチポチの回数を減らしたかったんです。

図2:ポータルでポチッと監視停止

最近の利用状況をみて見ると、この無視に関する申請数はダントツトップでして、結果的に不要なアラートを機械的に消し込める数が大きくなりました。もう一方の、アプリケーション不具合やデータベース障害等で発生する、垂れ流しになってしまうログ関係のアラートは?というと、5分間でまとめてしまおう。と考えました。どうやってまとめるかというと、同一のサーバの同一監視項目を1件にマージしています。重複排除って呼んでいます。

障害が発生してしまうのは仕方ないとして、オペレーション現場からみると、突発的にバーストするこの手のアラートの対応は、すごく大変なんです。ずっと出っ放しなので、1件ずつ対応してたのではとんでもない対応遅延になってしまいます。アラート全体からみると、この重複排除した件数はさほど多くは無いですが、運用現場にとってはすごくありがたい機能だったりします。こういった中継システムの機能を使った結果、年間1,000万件を超えるアラートの94%を機械的に無視するまでに至りました。

図3:ノウハウから生まれた自動アラート処理機構

この他にも、中継システムには様々な機能がありますが、動的な手順書自動生成機能、自動アラート通知機能(これ、電話もメールも出来るんです)、大量アラート検出機能、API連動、メール連動などなど、運用現場ならではの機能をスクラッチ開発しています。

図4:機能一覧

・運用管理機能をSaaS提供

そんな中継システムを中核に据えた、運用管理システムをSaaSで提供しているのがIIJ統合運用管理サービス、略してUOM(Unified Operation Management)です。主要機能の監視、運用、ジョブ、に加えて、統合管理ポータル、チケット管理、通知といったサブ機能までをラインナップにしたサービスです。実は中継システムは商品にはなっていなくて、勝手についてくる基本機能です。これらの機能はすべてが結合されていますので、ご契約頂いてからすぐに使い始めることができます。

図5:サービスメニュー

機能カットでみると、OSS(Open Source Software)や各社から製品が出ていますが、フルSaaSで提供しているのは大きな特徴です。しかも、長年アウトソーシングをやってきた我々がコア部分をスクラッチ開発していますので、運用者に優しいサービスになっていると思います。

・マルチクラウド時代の運用

昨今はマルチクラウドがどんどん浸透しており、現場に求められる、スキルセットやスピード、品質が日に日に増しています。従来型のオペレーションのあり方では、到底太刀打ち出来ないのも明白で、新しい取組が必要だろうと感じています。そこで、統合運用管理サービスは”マルチクラウド運用の自動運転”に向けて、新たな挑戦に挑み始めています。

【プレスリリース】

IIJ、マルチクラウド運用の自動運転を実現する「IIJ統合運用管理サービス」を提供開始(2017/3/13)

すでにAzureの対応が完了し、他のクラウドにも対応すべく準備を進めています。また、自動オペレーション機能や予兆、予測といった未来を見据えた運用の検証も始めています。

今後の発展にぜひご期待ください。

今後の連載予定

コメントは受け付けていません。