TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2025109182
公報種別公開特許公報(A)
公開日2025-07-24
出願番号2024225945
出願日2024-12-23
発明の名称障害検証システムおよび障害検証方法
出願人富士電機株式会社
代理人インフォート弁理士法人
主分類G06F 11/36 20250101AFI20250716BHJP(計算;計数)
要約【課題】単体試験や従来型のシステム試験では確認が困難であったシステム障害の事前検証を可能にする。
【解決手段】収集部110は、クラウドサービスを提供するクラウドアプリと、デバイスにおいてクラウドサービスとの間でデータの授受を行うデバイスアプリとについての実行ログをログ情報として収集する。また、収集部110は、クラウドアプリを実行するクラウドリソースとデバイスアプリを実行するデバイスリソースとのそれぞれに関するメトリクスのログをメトリクス情報として収集する。付与部120は、クラウドサービスとデバイスとから構成される対象システムの構成要素のいずれかに障害発生の要因を付与して対象システムに障害を発生させる。保存部130は、ログ情報及びメトリクス情報を、当該要因を構成要素へ付与した時に紐づけて、障害検証情報として保存する。
【選択図】図2


特許請求の範囲【請求項1】
クラウドコンピューティングにより提供されるクラウドサービスと、前記クラウドサービスとの間でデータの授受を行うデバイスとから構成される対象システムであって、前記クラウドサービスを提供するクラウドアプリと、前記クラウドアプリを実行するハードウェアであるクラウドリソースと、前記デバイスにおいて前記データの授受の機能を提供するデバイスアプリと、前記デバイスアプリを実行するハードウェアであるデバイスリソースとを構成要素として備える前記対象システムで発生する障害の検証を行う障害検証システムであって、
前記クラウドアプリと前記デバイスアプリとについての実行ログをログ情報として収集すると共に、前記クラウドリソースと前記デバイスリソースとのそれぞれに関するメトリクスのログをメトリクス情報として収集する収集部と、
障害発生の要因を前記対象システムの前記構成要素のいずれかに付与して前記対象システムに障害を発生させる付与部と、
前記ログ情報及び前記メトリクス情報を、前記要因を前記構成要素へ付与した時に紐づけて、障害検証情報として保存する保存部と、
を備えることを特徴とする障害検証システム。
続きを表示(約 2,900 文字)【請求項2】
前記対象システムの構成要素における異常の発生を検知する検知部と、
前記対象システムにおける前記要因が付与された前記構成要素を除く他の構成要素での異常の発生が、前記要因の付与に応じて検知された場合に、前記他の構成要素を特定する情報を出力する特定情報出力部と、
を更に備えることを特徴とする請求項1に記載の障害検証システム。
【請求項3】
前記対象システムの監視を行う監視部と、
前記監視によって前記対象システムに障害の発生が検知されたときに前記収集部を制御して、検知された前記障害の発生時点における前記ログ情報及び前記メトリクス情報を収集させる収集制御部と、
前記障害検証情報を用いて、前記監視によって発生が検知された障害の原因を、前記障害の発生時点における前記ログ情報及び前記メトリクス情報から特定する原因特定部と、
を更に備えることを特徴とする請求項1に記載の障害検証システム。
【請求項4】
前記原因特定部は、
前記要因毎の前記障害検証情報における前記要因毎の前記ログ情報及び前記メトリクス情報と、前記障害の発生時点における前記ログ情報及び前記メトリクス情報とのマッチ率を算出する算出部と、
前記マッチ率が高い順に所定数個の前記要因の識別情報を、前記監視によって発生が検知された障害の原因を表す情報として出力する原因情報出力部と、
を備えることを特徴とする請求項3に記載の障害検証システム。
【請求項5】
前記付与部は、
前記クラウドリソースに配置される第1付与仲介部であって前記クラウドリソース若しくは前記クラウドアプリに前記要因を付与する前記第1付与仲介部と、
前記デバイスリソースに配置される第2付与仲介部であって前記デバイスリソース若しくは前記デバイスアプリに前記要因を付与する前記第2付与仲介部と、
前記要因と前記構成要素との設定を含む障害発生指令に応じて前記第1付与仲介部若しくは前記第2付与仲介部に指示を与えて、前記障害発生指令に設定されている前記要因を前記障害発生指令に設定されている前記構成要素に付与させる付与指示部と、
を備えることを特徴とする請求項1に記載の障害検証システム。
【請求項6】
前記収集部は、
前記クラウドリソースに配置される第1収集仲介部であって前記クラウドアプリについての前記実行ログの収集と前記クラウドリソースについての前記メトリクスのログの収集とを行う前記第1収集仲介部と、
前記デバイスリソースに配置される第2収集仲介部であって前記デバイスアプリについての前記実行ログの収集と前記デバイスリソースについての前記メトリクスのログの収集とを行う前記第2収集仲介部と、
前記第1収集仲介部が収集した前記実行ログ及び前記メトリクスのログを前記第1収集仲介部から受け取ると共に、前記第2収集仲介部が収集した前記実行ログ及び前記メトリクスのログを前記第2収集仲介部から受け取る受領部と、
を備えることを特徴とする請求項1又は5に記載の障害検証システム。
【請求項7】
前記対象システムは、前記クラウドサービスと、前記デバイスと、前記クラウドサービスとの間でデータの授受を行うサブデバイスとから構成されており、
前記デバイスリソースに配置される前記第2付与仲介部は、更に、前記サブデバイスで実行される前記デバイスアプリ、若しくは、前記サブデバイスで前記デバイスアプリを実行するハードウェアリソースにも、前記障害発生指令における前記構成要素の設定に応じて前記要因を付与する、
ことを特徴とする請求項5に記載の障害検証システム。
【請求項8】
前記対象システムを構成する前記デバイスは複数であり、
前記付与指示部は、
複数の前記デバイスのうちの第1のデバイスが備える前記第2付与仲介部の異常の有無を確認し、
前記障害発生指令において、前記構成要素の設定として、前記サブデバイスで実行される前記デバイスアプリ、若しくは、前記サブデバイスで前記デバイスアプリを実行するハードウェアリソースが設定されている場合において、
前記異常がないと確認された場合には、前記第1のデバイスが備える前記第2付与仲介部に指示を与えて、前記障害発生指令に設定されている前記要因を前記障害発生指令に設定されている前記サブデバイスについての前記構成要素に付与させ、
前記異常があると確認された場合には、複数の前記デバイスのうちの前記第1のデバイスとは別の第2のデバイスが備える前記第2付与仲介部に指示を与えて、前記障害発生指令に設定されている前記要因を前記障害発生指令に設定されている前記サブデバイスについての前記構成要素に付与させる
ことを特徴とする請求項7に記載の障害検証システム。
【請求項9】
前記対象システムは、前記クラウドサービスと、前記デバイスと、前記クラウドサービスとの間でデータの授受の処理を行うサブデバイスとから構成されており、
前記第2収集仲介部は、更に、前記サブデバイスで実行される前記デバイスアプリについての実行ログの収集と、前記サブデバイスで前記デバイスアプリを実行するハードウェアリソースについてのメトリクスのログの収集とを行い、
前記受領部は、更に、前記第2収集仲介部が収集した前記サブデバイスについての前記実行ログ及び前記メトリクスのログを前記第2収集仲介部から受け取る、
ことを特徴とする請求項6に記載の障害検証システム。
【請求項10】
クラウドコンピューティングにより提供されるクラウドサービスと、前記クラウドサービスとの間でデータの授受を行うデバイスとから構成される対象システムであって、前記クラウドサービスを提供するクラウドアプリと、前記クラウドアプリを実行するハードウェアであるクラウドリソースと、前記デバイスにおいて前記データの授受の機能を提供するデバイスアプリと、前記デバイスアプリを実行するハードウェアであるデバイスリソースとを構成要素として備える前記対象システムで発生する障害の検証を行う障害検証システムが行う障害検証方法であって、
前記クラウドアプリと前記デバイスアプリとについての実行ログをログ情報として収集し、
前記クラウドリソースと前記デバイスリソースとのそれぞれに関するメトリクスのログをメトリクス情報として収集し、
障害発生の要因を前記対象システムの前記構成要素のいずれかに付与して前記対象システムに障害を発生させ、
前記ログ情報及び前記メトリクス情報を、前記要因を前記構成要素へ付与した時に紐づけて、前記要因毎の障害検証情報として保存する、
ことを特徴とする障害検証方法。
(【請求項11】以降は省略されています)

発明の詳細な説明【技術分野】
【0001】
本発明は、情報システムにおいて発生する障害を検証する技術に関する。
続きを表示(約 3,400 文字)【背景技術】
【0002】
情報システムにおいて発生する障害に対処するための技術として、障害発生時にその障害が原因で波及する可能性のある障害を予測する方法、障害要因の推定精度を向上させる方法、及び信頼性試験のために擬似的に障害を発生させる方法が知られている(例えば、特許文献1~3)。
【先行技術文献】
【特許文献】
【0003】
特開2013-222313号公報
特開2021-128538号公報
特開2011-123783号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
クラウド、オンプレミス、エッジデバイス等の様々な環境に各コンポーネントが分散して配置されて構成される情報システムでは、それぞれが異なるインフラストラクチャ上で稼働し、複雑に連携し合うことになる。このため、想定されていなかったシステム障害が実運用時に発生してしまうことがある。
本発明の1つの側面に係わる目的は、情報システムの障害を事前に検証する方法を提供することである。
【課題を解決するための手段】
【0005】
実施形態のひとつである障害検証システムは、クラウドコンピューティングにより提供されるクラウドサービスと、当該クラウドサービスとの間でデータの授受を行うデバイスとから構成される対象システムで発生する障害の検証を行う。この対象システムは、クラウドサービスを提供するクラウドアプリと、クラウドアプリを実行するハードウェアであるクラウドリソースと、デバイスにおいてデータの授受の機能を提供するデバイスアプリと、デバイスアプリを実行するハードウェアであるデバイスリソースとを構成要素として備える。この障害検証システムは、収集部と付与部と保存部とを備える。収集部は、クラウドアプリとデバイスアプリとについての実行ログをログ情報として収集すると共に、クラウドリソースとデバイスリソースとのそれぞれに関するメトリクスのログをメトリクス情報として収集する。付与部は、障害発生の要因を対象システムの構成要素のいずれかに付与して対象システムに障害を発生させる。保存部は、ログ情報及びメトリクス情報を、当該要因を構成要素へ付与した時に紐づけて、障害検証情報として保存する。
【0006】
他の実施形態に係わる障害検証システムは、第1のOSが実装された第1のプロセッサコアおよび第2のOSが実装された第2のプロセッサコアを備えるマルチコアデバイスを含む対象システムの障害を検証する。この障害検証システムは、前記対象システムの障害を検証するための障害検証情報を作成する障害検証部と、前記障害検証情報を利用して前記対象システムで発生する障害または障害の予兆の原因を特定する障害特定部と、前記第1のプロセッサコアに実装され、前記第1のプロセッサコア内で動作するアプリの実行ログを表す第1のログ情報および前記第1のプロセッサコアのハードウェアの状態を表す第1のメトリクス情報を収集する第1のエージェントと、前記第2のプロセッサコアに実装され、前記第2のプロセッサコア内で動作するアプリの実行ログを表す第2のログ情報および前記第2のプロセッサコアのハードウェアの状態を表す第2のメトリクス情報を収集する第2のエージェントと、を備える。前記障害検証部は、予め指定された複数の障害要因それぞれについて、前記対象システムに当該障害要因を注入したときの前記第1のログ情報および前記第1のメトリクス情報を前記第1のエージェントから受信すると共に、前記対象システムに当該障害要因を注入したときの前記第2のログ情報および前記第2のメトリクス情報を前記第2のエージェントから前記第1のエージェントを介して受信し、前記対象システムに当該障害要因を注入したときの前記第1のログ情報、前記第1のメトリクス情報、前記第2のログ情報、および前記第2のメトリクス情報を前記障害検証情報として保存する。前記障害特定部は、前記対象システムの実運用時に前記第1のエージェントから受信する前記第1のログ情報および前記第1のメトリクス情報、および、前記第2のエージェントから前記第1のエージェントを介して受信する前記第2のログ情報および前記第2のメトリクス情報の少なくとも一部を含むモニタ情報と前記複数の障害要因それぞれについて保存されている前記障害検証情報とを比較することで、前記対象システムにおいて発生する障害または障害の予兆の原因を特定する。
【発明の効果】
【0007】
上記の態様によれば、単体試験または従来型のシステム試験では確認が困難であったシステム障害の事前検証が可能になる。
【図面の簡単な説明】
【0008】
障害検証システムの概要を説明する図である。
障害検証システムの構成例を示す図である。
情報処理装置のハードウェア構成例を示す図である。
障害検証エージェントの処理内容の第1の例を示すフローチャートである。
情報保管処理の処理内容を示すフローチャートである。
障害検証処理の処理内容を示すフローチャートである。
障害検証エージェントの処理内容の第2の例を示すフローチャートである。
障害特定処理の処理内容を示すフローチャートである。
障害検証システムによる対象システムの故障の検証の具体例を説明する図である。
各種テーブルのデータ例を示す図である。
第2の実施形態における検証対象システムおよび障害検証システムの一例を示す図である。
準備フェーズにおけるクラウド側の処理の一例を示すフローチャートである。
準備フェーズにおける障害検証エージェントの処理の一例を示すフローチャートである。
準備フェーズにおいて情報保管部に保存される各種情報の例を示す図である。
障害特定フェーズにおける障害検証エージェントの処理の一例を示すフローチャートである。
障害特定フェーズにおける障害特定部の処理の一例を示すフローチャートである。
17Aは、ログ/メトリクス情報の一例を示し、17B~17Cは、管理者端末に送信される情報の例を示す図である。
フェールセーフフェーズにおけるフェールセーフ制御部の処理の一例を示すフローチャートである。
フェールセーフフェーズにおける障害検証エージェントの処理の一例を示すフローチャートである。
検証対象システムにおいてフェールセーフが実施された状態の一例を示す図である。
【発明を実施するための形態】
【0009】
情報システムのシステム基盤として、クラウドコンピューティングにより提供されるクラウドサービスの活用が盛んになっている。また、情報システムが構築されるインフラ環境(「インフラ」とは、インフラストラクチャの略称)は、1つのデータセンターに留まらない形で拡大し、且つ分散化している。重要な基幹データや更新が難しいアプリケーションをオンプレミスに残すようにした上でクラウドサービスと連携させるハイブリッドクラウドや、現場でリアルタイムにデータ処理を行うエッジコンピューティングは、このようなインフラ環境の例である。このように、システムアーキテクチャとして多くのサービスが紐づき合って構成されている情報システムでは、1つ1つのトラフィックを追跡することが難しくなっている。
【0010】
また、このような情報システムでは、多くのアプリケーションがクラウドベンダ管理下のインフラ上で実行され、また、複雑に連携している。このため、既存のシステム試験では全ての異常系(例えば、ネットワークや演算処理装置の負荷の異常など)を網羅しきれないことがある。また、情報システムを構成するクラウド上の複数のプラットフォーム及び複数のデバイスが異なるインフラ上で分散して稼働し、複雑に連携し合っているため、あるアプリケーションで発生した障害が予期しない別のアプリケーションに影響を及ぼす可能性がある。
(【0011】以降は省略されています)

この特許をJ-PlatPatで参照する

関連特許

富士電機株式会社
電力変換装置
5日前
富士電機株式会社
金銭処理装置
8日前
富士電機株式会社
半導体モジュール
1日前
富士電機株式会社
半導体モジュール
3日前
富士電機株式会社
ガス処理システム
8日前
富士電機株式会社
電子機器および証明書管理方法
3日前
富士電機株式会社
集積回路、及び電源回路
4日前
富士電機株式会社
電子装置及び電子装置の製造方法
8日前
個人
裁判のAI化
23日前
個人
情報処理システム
1か月前
個人
フラワーコートA
2日前
個人
記入設定プラグイン
1か月前
個人
情報処理装置
1か月前
個人
検査システム
1か月前
個人
介護情報提供システム
9日前
個人
設計支援システム
15日前
個人
設計支援システム
15日前
個人
不動産売買システム
1か月前
株式会社サタケ
籾摺・調製設備
1か月前
キヤノン電子株式会社
携帯装置
1か月前
株式会社カクシン
支援装置
18日前
個人
アンケート支援システム
4日前
個人
備蓄品の管理方法
1か月前
サクサ株式会社
中継装置
1か月前
サクサ株式会社
中継装置
5日前
個人
ジェスチャーパッドのガイド部材
8日前
キヤノン株式会社
情報処理装置
1か月前
株式会社BONNOU
管理装置
1か月前
キヤノン株式会社
情報処理装置
1か月前
ホシデン株式会社
タッチ入力装置
1か月前
アスエネ株式会社
排水量管理方法
1か月前
個人
リテールレボリューションAIタグ
1日前
株式会社アジラ
移動方向推定装置
3日前
株式会社東芝
電子機器
1か月前
東洋電装株式会社
操作装置
1か月前
株式会社ワコム
電子消去具
1か月前
続きを見る