TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2025144067
公報種別公開特許公報(A)
公開日2025-10-02
出願番号2024043660
出願日2024-03-19
発明の名称システム障害監視装置及びシステム障害監視方法
出願人株式会社日立製作所
代理人弁理士法人ウィルフォート国際特許事務所
主分類G06F 11/07 20060101AFI20250925BHJP(計算;計数)
要約【課題】システムの根本原因を容易に推定することが可能なシステム障害監視装置を提供する。
【解決手段】データ収集部141は、リクエストに応じた処理を実行するPod202に関する構成情報であるPod・計算ノード情報132と、Pod202で処理されるリクエストに関するトレーシングデータ131とを取得する。処理時間計算部142及び異常度計算判定部143を含む判定部は、トレーシングデータ131及びPod・計算ノード情報132に基づいて、リクエストごとに、監視対象システム1の異常に関連する異常リクエストか否かを判定する。異常リクエスト分布計算部144及び異常リクエスト可視化部145を含む提示部は、リクエストに関する座標軸で規定されたリクエスト空間内に異常リクエストをプロットした異常リクエスト分布を示す可視化データを生成して提示する。
【選択図】図1
特許請求の範囲【請求項1】
リクエストに応じた処理を実行する複数のコンポーネントを有する監視対象システムを監視するシステム障害監視装置であって、
各コンポーネントに関する構成情報と各コンポーネントで処理される各リクエストに関するリクエスト情報とを収集する収集部と、
前記構成情報及び前記リクエスト情報に基づいて、前記リクエストごとに、当該リクエストが前記監視対象システムの異常に関連する異常リクエストか否かを判定する判定部と、
前記リクエストに関する座標軸で規定されたリクエスト空間内に前記異常リクエストをプロットした異常リクエスト分布を示す可視化データを生成して提示する提示部と、を有するシステム障害監視装置。
続きを表示(約 1,600 文字)【請求項2】
前記判定部は、
前記構成情報及び前記リクエスト情報に基づいて、前記リクエストごとに、当該リクエストに応じた処理にかかった処理時間を算出する処理時間計算部と、
前記リクエストごとに、当該リクエストの処理時間と、当該リクエストと所定の同種関係にある比較対象リクエストの処理時間とを比較した比較値に基づいて、当該リクエストが前記異常リクエストか否かを判定する判定実行部と、を有する、請求項1に記載のシステム障害監視装置。
【請求項3】
前記リクエストの処理時間は、前記コンポーネントが当該リクエストを受信してから当該リクエストに応答するまでの応答時間から、当該コンポーネントが当該リクエストに応じた下位リクエストを他のコンポーネントに送信してから前記他のコンポーネントからの応答を受信するまでの待ち時間を差し引いた時間である、請求項2に記載のシステム障害監視装置。
【請求項4】
前記比較対象リクエストは、送信元の前記コンポーネントである送信元コンポーネントと送信先の前記コンポーネントである送信先コンポーネントとが当該リクエストと同一のリクエストである、請求項3に記載のシステム障害監視装置。
【請求項5】
前記コンポーネントは、特定のサービスを提供し、
前記監視対象システムは、同一の前記サービスを提供する複数の前記コンポーネントを有し、
前記判定実行部は、前記同一のリクエストの数が所定の必要数未満の場合、前記送信元コンポーネントが提供するサービスと前記送信先コンポーネントが提供するサービスとが当該リクエストと同一のリクエストを前記比較対象リクエストとして代用する、請求項4に記載の請求項4に記載のシステム障害監視装置。
【請求項6】
前記リクエスト情報は、前記監視対象システムにおいて取得された前記リクエストに関する異常の履歴を示すエラーログ情報であり、
前記判定部は、前記エラーログ情報に基づいて、前記リクエストごとに、当該リクエストが前記異常リクエストか否かを判定する、請求項1に記載のシステム障害監視装置。
【請求項7】
前記提示部は、互いに異なる複数の前記座標軸のそれぞれについて、前記リクエスト空間内の各異常リクエストの位置と各異常リクエストの重心位置との距離の総和である総距離に基づいて、前記複数の座標軸から前記可視化データで使用する座標軸である表示座標軸を選択する、請求項1に記載のシステム障害監視装置。
【請求項8】
前記座標軸は、ユーザにて設定可能である、請求項7に記載のシステム障害監視装置。
【請求項9】
前記判定部は、前記構成情報及び前記リクエスト情報に基づいて、前記リクエストごとに、当該リクエストの前記監視対象システムの異常に関連する度合いを評価した異常度を算出し、前記異常度に基づいて、前記リクエストが前記異常リクエストか否かを判定し、
前記可視化データは、前記異常リクエストのプロットを当該異常リクエストの異常度に応じた視覚情報で示すヒートマップである、請求項1に記載のシステム障害監視装置。
【請求項10】
リクエストに応じた処理を実行する複数のコンポーネントを有する監視対象システムを監視するシステム障害監視装置によるシステム障害監視方法であって、
各コンポーネントに関する構成情報と各コンポーネントで処理される各リクエストに関するリクエスト情報とを収集し、
前記構成情報及び前記リクエスト情報に基づいて、前記リクエストごとに、当該リクエストが前記監視対象システムの異常に関連する異常リクエストか否かを判定し、
前記リクエストに関する座標軸で規定されたリクエスト空間内に前記異常リクエストをプロットした異常リクエスト分布を示す可視化データを生成して提示する、システム障害監視方法。

発明の詳細な説明【技術分野】
【0001】
本開示は、システム障害監視装置及びシステム障害監視方法に関する。
続きを表示(約 1,900 文字)【背景技術】
【0002】
マイクロサービスアーキテクチャのような分散システムの普及に伴い、その運用管理における課題が増加している。例えば、分散システムの不具合が発生した際に、その原因がアプリケーション側にあるのか、それとも基盤となるインフラ側にあるのかを迅速に特定する必要があり、分散システムの運用管理者からは、このような根本原因の特定作業の時間の短縮が求められている。
【0003】
上記の課題に対応するためには、システムの動作を監視し、問題発生の予兆を早期に捉える技術の導入が重要である。このような技術は、根本原因の分析の時間を大幅に短縮し、システムの安定性を図ることができる。
【0004】
これに対して特許文献1には、監視ツールを用いて収集したデータから特徴量を算出し、その特徴量に基づいてマイクロサービスの障害原因(インフラの障害とアプリケーションの障害との因果関係)を判別する技術が開示されている。この技術では、特徴量と教師ラベルとの関係性が学習され、本番環境で取得された特徴量を用いてマイクロサービスの障害原因が判定される。
【先行技術文献】
【特許文献】
【0005】
特開2021-144401号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
分散システムは、多様なアプリケーション及びサービスの需要に対応するために、一般的には、仮想処理単位を用いてアプリケーションを分散実行する設計を有している。この場合、リソースの有効活用、拡張性及び柔軟性の向上が期待できる。しかしながら、このような分散システムでは、多数の仮想処理単位が関与し、仮想環境で実行される異なるアプリケーション間での相互作用及び依存関係が複雑になるため、障害発生時に原因を特定し、効率的な障害分析を行うことが難しい。
【0007】
特許文献1に記載の技術を上記の分散システムに適用した場合、アプリケーションの障害を示す情報と処理ノードの障害を示す情報とを取得し、異なる処理ノード間で実行されるアプリケーション間の階層関係及び依存関係を評価し、さらに異なる障害情報のエラーメッセージの類似度を計算する必要がある。また、これらの評価値が特徴量として保持され、教師ラベルを取得して対応付けた訓練データが作成される。この訓練データを使用して、2つの障害情報が関連しているか否かを判断する障害予測モデルが生成される。この場合、仮想化されたシステムにおける障害原因の分析を効率化できるが、以下の問題がある。
【0008】
具体的には、障害データと教師データとを蓄積する必要があるため、新しいアプリケーションが導入された場合、そのアプリケーションに係る障害データ及び教師データを収集して蓄積しなければならず、そのデータが不足している場合、障害予測モデルの精度及び信頼性が低くなる。また、アプリケーションが更新された場合にも、その更新後のアプリケーションには既存のアプリケーションの障害予測モデルが対応していない特有の障害原因及び動作が存在する可能性があるため、精度及び信頼性の向上のためには、障害予測モデルの更新が必要となる。このため、アジャイル開発のようなアプリケーションの更新が早い開発スタイルに追従するためには、障害予測モデルの更新コストがかかる。
【0009】
本開示は、上記課題を鑑みてなされたものであり、システム障害の根本原因を容易に推定することが可能なシステム障害監視装置及びシステム障害監視方法を提供することを目的とする。
【課題を解決するための手段】
【0010】
本開示の一態様に従うシステム障害監視装置は、リクエストに応じた処理を実行する複数のコンポーネントを有する監視対象システムを監視するシステム障害監視装置であって、
各コンポーネントに関する構成情報と各コンポーネントで処理される各リクエストに関するリクエスト情報とを収集する収集部と、前記構成情報及び前記リクエスト情報に基づいて、前記リクエストごとに、当該リクエストが前記監視対象システムの異常に関連する異常リクエストか否かを判定する判定部と、前記リクエストに関する座標軸で規定されたリクエスト空間内に前記異常リクエストをプロットしたリクエスト分布を示す可視化データを生成して提示する提示部と、を有する。
【発明の効果】
(【0011】以降は省略されています)

この特許をJ-PlatPat(特許庁公式サイト)で参照する

関連特許

株式会社日立製作所
鉄道車両
8日前
株式会社日立製作所
半導体装置
16日前
株式会社日立製作所
ガス濃度測定装置
8日前
株式会社日立製作所
形状制御システム
2日前
株式会社日立製作所
欠陥知識循環システム
22日前
株式会社日立製作所
計画装置および計画方法
14日前
株式会社日立製作所
訓練システムおよび訓練方法
4日前
株式会社日立製作所
管理システムおよび管理方法
4日前
株式会社日立製作所
人物特性推定システム及び方法
23日前
株式会社日立製作所
費用対効果算出方法および装置
2日前
株式会社日立製作所
情報処理装置及び情報処理方法
4日前
株式会社日立製作所
回転電機および電動機システム
今日
株式会社日立製作所
状態検知装置及び状態検知方法
16日前
株式会社日立製作所
情報処理装置及び情報処理方法
今日
株式会社日立製作所
情報処理システム、及び予測方法
1日前
株式会社日立製作所
電子機器および電子機器制御方法
16日前
株式会社日立製作所
電力変換器およびインバータ装置
4日前
株式会社日立製作所
建物管理システム及び建物管理方法
14日前
株式会社日立製作所
Webページ更新管理装置及び方法
8日前
株式会社日立製作所
音声分析システム及び音声分析方法
8日前
株式会社日立製作所
異常検知システム及び異常検知方法
14日前
株式会社日立製作所
昇降機システム及び昇降機制御方法
4日前
株式会社日立製作所
計算機システム及びデータ検索方法
4日前
株式会社日立製作所
ログ抽出方法及びログ抽出システム
24日前
株式会社日立製作所
障害対応システム及び障害対応方法
22日前
株式会社日立製作所
物流計画システム及び物流計画方法
2日前
株式会社日立製作所
制御装置、制御方法およびプログラム
16日前
株式会社日立製作所
電力監視システムおよび電力監視方法
14日前
株式会社日立製作所
通貨管理システム、及び通貨管理方法
8日前
株式会社日立製作所
データ出力装置およびデータ出力方法
4日前
株式会社日立製作所
設計図書のチェックシステムおよび方法
今日
株式会社日立製作所
鉄道システムおよび鉄道車両の制御方法
24日前
株式会社日立製作所
計算機システム及びタスクの割当制御方法
14日前
株式会社日立製作所
仮想空間生成装置および仮想空間生成方法
今日
株式会社日立製作所
支援装置、支援方法、及び支援プログラム
14日前
株式会社日立製作所
作業認識支援システム及び作業認識支援方法
4日前
続きを見る