Observabilityのパワーを体験してみよう

NaomiN · ‎09-27-2022

最近、「Observability(可観測性)」というワードに触れる機会も増えてきているのではないでしょうか。

今回のブログでは、Observability(可観測性)のパワーを具体的なソリューションを交えて、Pointnext事業統括　ハイブリッドクラウドソリューション部　シニアコンサルタント　小西克博が解説します。

みなさん、こんにちは。HPE Pointnext のハイブリッドクラウドソリューションシニアコンサルタントの小西です。前回、可観測性が大事。ちゃんと観察しよう。という話をシャーロックホームズの逸話を交えて弊社中村より話してもらいました。今日は「可観測性」のパワーをみなさんに体験して頂きたいと思います。

観察しなさいといわれても、なかなか、なにをどれだけ見ればよいのだろうか？難しいですよね。

プロセスが死んだ。エラーを示すログが出た。そういう観測はされているかと思います。あとは、監視系のツールでも、CPU使用率、メモリ使用量、ディスク使用量などはデータをして保持しているかもしれません。

さて、そんな状況で、

「なんか、いつもよりもパフォーマンスが悪いような気がするんですよね」

というありがちで微妙な報告が上がってきたとします。

とりあえず、そのシステムの情報を監視システムで確認します。エラーは上がっていません。何かが止まった結果パフォーマンスが悪いわけではなさそうです。ただ、あるサーバーのディスクの使用率が非常に高くなっているという警告が出ています。

ディスクの使用率が高い。インフラの担当者からは、なぜそうなったのか？よくわからないので、そのシステムの担当者に連絡して詳細の調査を依頼することになります。

これが、可観測性をしっかりとできていた場合は、どういう調査になるでしょうか？アプリケーションのパフォーマンスを取得して分析するのが得意な製品、Kubernetes環境の情報取得が得意な製品など、様々な製品により可観測性を実現することができます。そういったなかで、今回は、すべてのログを収集して分析する製品として名高いSplunk Enterpriseを核としてIT運用を高度化できる製品であるSplunk ITSI(Splunk IT Service Intelligence)の画面を見ながら確認してみましょう。

Splunk ITSIを起動してみると、

たしかに、Database Response Timeが何やら赤く表示されています。なぜ赤くなっているのか気になるところです。ここで、TreeViewにして、依存関係を確認してみましょう。

TreeViewを確認すると、どうやら、mysql-02でDisk Fullになっていることがわかります。DiskFullになっていることが、このパフォーマンス劣化の原因なのかどうかはハッキリしませんが、とりあえず、なぜDiskFullになっているのを調査してみましょう

Deep Diveしてみます。

そうすると、さまざまな指標が時間軸で表示される形になっています。ぱっと見た感じ最初に赤い色があらわれるのがDisk Space Usedで、他の指標が黄色や赤に変わるのがそれよりも後なので、原因としてはここから始まっているっぽいですよね。あくまでっぽいなので、他の原因がないかの調査は別途必要かもしれません。まずは、ディスクの使用率が増えているその原因を考えてみましょう

実は、いま気にしているmysql-02はOSとしてWindowsを利用しているのですが、一番下にWindowsのイベントログの内容がこの一覧に出てきています（実際にはActive Directoryのログですね）。緑が濃い色になっているところでログが出ていることがわかります。みてみると、なんだか、scheduledというアカウントがロックアウトって言われていますよね。

ちょうど同じ時間帯でServiceNowのChange Requestがあるようですので、その内容のログを見ることができました。

Blog35_5 .png

なるほど、パスワードが変更されているのですね。

実は、定期的に実行するジョブをscheduledというアカウントで実行していて、それがログをローテーションして圧縮するジョブだった。というのは、この画面からわからない情報なのですが、そのアカウントのパスワードを変更したがために実行されなくなっているようです。

関係各所と調整して、DiskFullになっているログをローテンションして圧縮してDiskの空き容量を増やす暫定対応、パスワード変更による影響箇所を修正するなどの恒久対応などを実行して、このトラブル対応は終わりです。

今日は、これまでは現象が起こった際に様々なシステムやOSなどになにが起こったのか、それぞれのシステムにログインして各種ログを検索したり、性能情報、リソース利用状況グラフと見比べたりして確認しなければならなかったのを1ヶ所にすべてまとめておくと、しっかり「観察」できる。つまり、前回中村よりお話しさせて頂いたように「君はただ眼で見るだけで、観察ということをしない。見るのと観察するのとでは大違いなんだ。」ということをご理解頂けたところで、今日のお話は終わりたいと思います。

【関連過去HPE Blog】

セルフサービス仮想基盤をだけでなく、バックアップもDRも、ウイルス対策もすべてas a Serviceで提供します

そのツール、見てはいるが、観察していますか？

ミッションクリティカルシステムのコンテナ化におけるポイントとは？

ハイブリッドクラウド環境における Anthos の使い所

ハイブリッドクラウドに求められる監視ソリューション　~オブザーバビリティを実現し、ハイブリッドクラウド環境を可視化～

HPEすべての製品とサービスをお客様環境にas a Serviceで提供します。

Red Hat Partner Awards を3年連続で受賞しました！

HPE PointnextによるCI/CDパイプライン導入事例のご紹介

Google Cloud Partner Top Engineer アワード受賞

DXを支えるWorkstyle Transformation（WX）とInfrastructure Transformation（IX）

HPE DXプラットフォーム　ハイブリッドクラウド