特許ウォッチ

公開番号2024151738
公報種別公開特許公報(A)
公開日2024-10-25
出願番号2023065376
出願日2023-04-13
発明の名称プログラム、情報処理装置および情報処理方法
出願人株式会社東芝
代理人弁理士法人酒井国際特許事務所
主分類G06N 3/0464 20230101AFI20241018BHJP(計算;計数)
要約【課題】畳み込みニューラルネットワークモデルを用いる場合に、1つのモデルを用いて計算量と精度とのトレードオフを制御する柔軟な実装を実現する。
【解決手段】実施形態のプログラムは、コンピュータを、記憶制御部と変換部と第1CNN部と第2CNN部として機能させる。記憶制御部は、第1のストライドパラメータと第1のディレーションパラメータと、を記憶装置から読み出す。変換部は、変換パラメータを用いて、第1のストライドパラメータを第2のストライドパラメータに変換し、第1のディレーションパラメータを第2のディレーションパラメータに変換する。第1CNN部は、少なくとも第2のストライドパラメータを用いて、特徴ベクトルの第1CNN処理を実行する。第2CNN部は、少なくとも第2のディレーションパラメータを用いて、第1CNN部の出力ベクトルを入力とする第2CNN処理を実行する。
【選択図】図4
特許請求の範囲【請求項１】
コンピュータを、
出力の解像度を制御する第１のストライドパラメータと、入力の解像度を制御する第１のディレーションパラメータと、を記憶装置から読み出す記憶制御部と、
変換パラメータを用いて、前記第１のストライドパラメータを第２のストライドパラメータに変換し、前記第１のディレーションパラメータを第２のディレーションパラメータに変換する変換部と、
少なくとも前記第２のストライドパラメータを用いて、特徴ベクトルの第１ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）処理を実行する第１ＣＮＮ部と、
少なくとも前記第２のディレーションパラメータを用いて、前記第１ＣＮＮ部の出力ベクトルを入力とする第２ＣＮＮ処理を実行する第２ＣＮＮ部、
として機能させるためのプログラム。
続きを表示（約 2,200 文字）【請求項２】
前記変換部は、前記第１のストライドパラメータに前記変換パラメータを乗じることによって前記第２のストライドパラメータを生成し、前記第１のディレーションパラメータに前記変換パラメータの逆数を乗じることによって、前記第２のディレーションパラメータを生成する、
請求項１に記載のプログラム。
【請求項３】
前記記憶装置は、複数の前記第２のストライドパラメータと、複数の前記第２のディレーションパラメータとを記憶し、
前記変換部は、前記変換パラメータに基づき、前記複数の第２のストライドパラメータから１つの前記第２のストライドパラメータを選択することによって、前記第１のストライドパラメータを変換し、前記変換パラメータに基づき、前記複数の第２のディレーションパラメータから１つの前記第２のディレーションパラメータを選択することによって、前記第１のディレーションパラメータを変換する、
請求項１に記載のプログラム。
【請求項４】
前記複数の第２のストライドパラメータのそれぞれは、第１の方向の出力解像度を制御するパラメータと、第２の方向の出力解像度を制御するパラメータとを含み、
前記複数の第２のディレーションパラメータのそれぞれは、第１の方向の入力解像度を制御するパラメータと、第２の方向の入力解像度を制御するパラメータとを含む、
請求項３に記載のプログラム。
【請求項５】
前記第２ＣＮＮ部の出力ベクトルの次元は、１次元以上であり、
前記第２ＣＮＮ部の出力ベクトルの少なくとも一つの次元の解像度が不足している場合、前記解像度が不足している少なくとも１つの次元の解像度を補間する補間部、
を更に備える請求項１乃至３のいずれか１項に記載のプログラム。
【請求項６】
前記特徴ベクトルは、入力された音声の特徴量を示し、
前記入力された音声から前記特徴量を抽出することによって、前記特徴ベクトルを生成する抽出部と、
前記第２ＣＮＮ部の出力ベクトルを用いて、前記音声を認識する認識部、
として更に機能させる請求項１乃至４のいずれか１項に記載のプログラム。
【請求項７】
前記認識部は、前記第２ＣＮＮ部の出力ベクトルを用いて、前記音声に含まれるキーワードを検出し、
前記キーワードに対応付けられたコマンドを起動する起動部、
として更に機能させる請求項６に記載のプログラム。
【請求項８】
出力の解像度を制御する第１のストライドパラメータと、入力の解像度を制御する第１のディレーションパラメータと、を記憶装置から読み出す記憶制御部と、
変換パラメータを用いて、前記第１のストライドパラメータを第２のストライドパラメータに変換し、前記第１のディレーションパラメータを第２のディレーションパラメータに変換する変換部と、
少なくとも前記第２のストライドパラメータを用いて、特徴ベクトルの第１ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）処理を実行する第１ＣＮＮ部と、
少なくとも前記第２のディレーションパラメータを用いて、前記第１ＣＮＮ部の出力ベクトルを入力とする第２ＣＮＮ処理を実行する第２ＣＮＮ部と、
を備える情報処理装置。
【請求項９】
情報処理装置が、出力の解像度を制御する第１のストライドパラメータと、入力の解像度を制御する第１のディレーションパラメータと、を記憶装置から読み出すステップと、
前記情報処理装置が、変換パラメータを用いて、前記第１のストライドパラメータを第２のストライドパラメータに変換し、前記第１のディレーションパラメータを第２のディレーションパラメータに変換するステップと、
前記情報処理装置が、少なくとも前記第２のストライドパラメータを用いて、特徴ベクトルの第１ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）処理を実行するステップと、
前記情報処理装置が、少なくとも前記第２のディレーションパラメータを用いて、前記第１ＣＮＮ処理の出力ベクトルを入力とする第２ＣＮＮ処理を実行するステップと、
を含む情報処理方法。
【請求項１０】
第１の情報処理装置が、出力の解像度を制御する第１のストライドパラメータと、入力の解像度を制御する第１のディレーションパラメータと、を記憶装置から読み出すステップと、
前記第１の情報処理装置が、変換パラメータを用いて、前記第１のストライドパラメータを第２のストライドパラメータに変換し、前記第１のディレーションパラメータを第２のディレーションパラメータに変換するステップと、
前記第１の情報処理装置が、少なくとも前記第２のストライドパラメータを、特徴ベクトルの第１ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）処理に使用されるパラメータとして、第２の情報処理装置に保存するステップと、
前記第１の情報処理装置が、少なくとも前記第２のディレーションパラメータを、前記第１ＣＮＮ処理の出力ベクトルを入力とする第２ＣＮＮ処理に使用されるパラメータとして、前記第２の情報処理装置に保存するステップと、
を含む情報処理方法。

発明の詳細な説明【技術分野】
【０００１】
本発明の実施形態はプログラム、情報処理装置および情報処理方法に関する。
続きを表示（約 1,800 文字）【背景技術】
【０００２】
ニューラルネットワークの計算量を削減する方法としてフレームスキップが従来から知られている。この方法は、例えば奇数番目のフレームのみニューラルネットワーク処理を実行して出力し、偶数番目のフレームは処理を実行せずに奇数番目の出力を使用することで計算量を半減する技術である。
【先行技術文献】
【特許文献】
【０００３】
特許第６４５３９１７号公報
【発明の概要】
【発明が解決しようとする課題】
【０００４】
しかしながら、従来の技術では、畳み込みニューラルネットワークモデルを用いる場合に、１つのモデルを用いて計算量と精度とのトレードオフを制御する柔軟な実装を実現することができなかった。
【課題を解決するための手段】
【０００５】
実施形態のプログラムは、コンピュータを、記憶制御部と変換部と第１ＣＮＮ部と第２ＣＮＮ部として機能させる。記憶制御部は、出力の解像度を制御する第１のストライドパラメータと、入力の解像度を制御する第１のディレーションパラメータと、を記憶装置から読み出す。変換部は、変換パラメータを用いて、前記第１のストライドパラメータを第２のストライドパラメータに変換し、前記第１のディレーションパラメータを第２のディレーションパラメータに変換する。第１ＣＮＮ部は、少なくとも前記第２のストライドパラメータを用いて、特徴ベクトルの第１ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）処理を実行する。第２ＣＮＮ部は、少なくとも前記第２のディレーションパラメータを用いて、前記第１ＣＮＮ部の出力ベクトルを入力とする第２ＣＮＮ処理を実行する。
【図面の簡単な説明】
【０００６】
第１実施形態の情報処理装置のハードウェア構成の一例を示す図。
第１実施形態の情報処理装置の機能構成の一例を示す図。
第１実施形態のキーワードおよびコマンドの対応情報の例を示す図。
第１実施形態の検出制御部の機能構成の一例を示す図。
第１実施形態の畳み込みニューラルネットワーク処理の例１を示す図。
第１実施形態の畳み込みニューラルネットワーク処理の例２を示す図。
第１実施形態の情報処理方法の例を示すフローチャート。
第２実施形態の情報処理装置の機能構成の一例を示す図。
第２実施形態のパラメータの一例を示す図。
第２実施形態の計算リソースに応じた変換パラメータの一例を示す図。
第２実施形態の補間部の入力例１を示す図。
第２実施形態の補間部の入力例２を示す図。
第２実施形態の補間部の入力例３を示す図。
第２実施形態の情報処理方法の一例を示すフローチャート。
【発明を実施するための形態】
【０００７】
以下に添付図面を参照して、プログラム、情報処理装置および情報処理方法の実施形態を詳細に説明する。
【０００８】
（第１実施形態）
はじめに、第１実施形態の情報処理装置１００のハードウェア構成の例について説明する。
【０００９】
［ハードウェア構成の例］
図１は第１実施形態の情報処理装置１００のハードウェア構成の一例を示す図である。図１の例は、第１実施形態の情報処理装置１００が、スマートフォンなどのスマートデバイスに搭載されるキーワード発話検出装置およびコマンド起動装置として実現される場合を示す。
【００１０】
第１実施形態の情報処理装置１００は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）３０１と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）３０２と、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）３０３と、操作入力装置３０４と、表示装置３０５と、記憶装置３０６と、通信装置３０７と、音声入力装置３０８とを備える。そして、ＣＰＵ３０１と、ＲＡＭ３０２と、ＲＯＭ３０３と、操作入力装置３０４と、表示装置３０５と、記憶装置３０６と、通信装置３０７と、音声入力装置３０８とは、バス３０９により接続される。
（【００１１】以降は省略されています）

関連特許