TOP特許意匠商標
特許ウォッチ Twitter
10個以上の画像は省略されています。
公開番号2025133195
公報種別公開特許公報(A)
公開日2025-09-11
出願番号2024030985
出願日2024-03-01
発明の名称検索装置、検索方法及びプログラム
出願人NTT株式会社,学校法人早稲田大学
代理人弁理士法人ITOH,個人,個人,個人
主分類G06F 8/70 20180101AFI20250904BHJP(計算;計数)
要約【課題】或るソースコードに関連するソースコードを特定する精度を向上させること。
【解決手段】検索装置は、或るソフトウェアに関する第1のソースコード及び前記ソフトウェアに関する複数の第2のソースコードのそれぞれの説明文を大規模言語モデルを用いて生成するように構成されている説明文生成部と、それぞれの前記説明文の特徴量を算出するように構成されている特徴量算出部と、前記第2のソースコードに係る前記特徴量ごとに前記第1のソースコードに係る特徴量との類似性を評価するように構成されている類似性評価部と、前記類似性の評価の結果に基づく情報を出力するように構成されている出力部と、を有する。
【選択図】図8
特許請求の範囲【請求項1】
或るソフトウェアに関する第1のソースコード及び前記ソフトウェアに関する複数の第2のソースコードのそれぞれの説明文を大規模言語モデルを用いて生成するように構成されている説明文生成部と、
それぞれの前記説明文の特徴量を算出するように構成されている特徴量算出部と、
前記第2のソースコードに係る前記特徴量ごとに前記第1のソースコードに係る特徴量との類似性を評価するように構成されている類似性評価部と、
前記類似性の評価の結果に基づく情報を出力するように構成されている出力部と、
を有することを特徴とする検索装置。
続きを表示(約 860 文字)【請求項2】
前記説明文生成部は、前記第1のソースコード及び前記第2のソースコードのそれぞれのソースコードついて、当該ソースコードと、当該ソースコードの説明文の生成を要求するテキストとを前記大規模言語モデルへ入力するように構成されている、
ことを特徴とする請求項1記載の検索装置。
【請求項3】
前記第2のソースコードは、前記ソフトウェアに関するソースコードを所定の処理単位に分割したソースコードである、
ことを特徴とする、
請求項1記載の検索装置。
【請求項4】
前記第1のソースコードは、前記ソフトウェアに関する機能変更に応じた修正が適用されたソースコードである、
ことを特徴とする請求項1記載の検索装置。
【請求項5】
或るソフトウェアに関する第1のソースコード及び前記ソフトウェアに関する複数の第2のソースコードのそれぞれの説明文を大規模言語モデルを用いて生成する説明文生成手順と、
それぞれの前記説明文の特徴量を算出する特徴量算出手順と、
前記第2のソースコードに係る前記特徴量ごとに前記第1のソースコードに係る特徴量との類似性を評価する類似性評価手順と、
前記類似性の評価の結果に基づく情報を出力する出力手順と、
をコンピュータが実行することを特徴とする検索方法。
【請求項6】
或るソフトウェアに関する第1のソースコード及び前記ソフトウェアに関する複数の第2のソースコードのそれぞれの説明文を大規模言語モデルを用いて生成する説明文生成手順と、
それぞれの前記説明文の特徴量を算出する特徴量算出手順と、
前記第2のソースコードに係る前記特徴量ごとに前記第1のソースコードに係る特徴量との類似性を評価する類似性評価手順と、
前記類似性の評価の結果に基づく情報を出力する出力手順と、
をコンピュータに実行させることを特徴とするプログラム。

発明の詳細な説明【技術分野】
【0001】
本発明は、検索装置、検索方法及びプログラムに関する。
続きを表示(約 1,700 文字)【背景技術】
【0002】
日本でのIT人材は不足している。その解決法の一つとして、大規模言語モデル(LLM)を用いたソフトウェアの開発の支援が挙げられる。現在、LLMによるコード生成能力は飛躍的に上昇しており、単一のソースコード(以下、単に「コード」という。)の理解や生成の精度は高い。しかし、実際のソフトウェア開発に近いリポジトリレベルでの研究は少なく、LLMによるリポジトリレベルのコード生成の能力は非常に低い。ここで、リポジトリレベルのコードとは、例えば、複数人によって開発が行われる複数の機能を有するソフトウェアに関する複数のコードの大規模な集合をいう。リポジトリレベルでのバグ修正ベンチマークSWE-benchのバグ解決率はわずか1.96%にとどまる。リポジトリレベルでのコード関連タスク(コード生成、コード修正、コード理解、コード検索等、通常プログラミング業務においてコードに関連して行われるタスク全般)では多くのファイルの参照が必要となる。
【0003】
一方で、LLMのほとんどはTransformerベースのモデルであるため、入力長に制限があり、多くのファイルを入力できない。通常、バグ修正や機能変更等では、当該バグや当該機能変更等に関連する一部のコードのみを修正すればよい。そこで、全てのコードではなく、一部のコードのみをLLMに入力することで、LLMの入力超の制限に対処可能であると考えられる。
【先行技術文献】
【非特許文献】
【0004】
Tianyang Liu, Canwen Xu, and Julian McAuley、"Repobench: Benchmarking repository-level code autocompletion systems"、arXiv preprint arXiv:2306.03091, 2023
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、大規模なコード集合の中から、或るバグ修正や機能変更等に関連する複数のコード(以下、「関連コード」という。)を人手で特定するのは容易ではない。そこで、人手で特定可能な一部のコードに基づくコード検索によって関連コードを特定することが考えられる。
【0006】
コード検索の既存研究では、LLMでコード生成を行いたいコード及びそれに関連しうる検索対象のコード候補それぞれの特徴量(言語モデルの埋め込み表現など)を取得し、特徴量に基づいて類似度が計算される。
【0007】
しかし、コード検索の精度は、SWE-benchやリポジトリレベルのコード補完・検索ベンチマークであるRepoBench(非特許文献1)などでも高くない。したがって、コード検索の既存技術を用いても、高い精度で関連コードを特定するは困難である。
【0008】
本発明は、上記の点に鑑みてなされたものであって、或るソースコードに関連するソースコードを特定する精度を向上させることを目的とする。
【課題を解決するための手段】
【0009】
そこで上記課題を解決するため、検索装置は、或るソフトウェアに関する第1のソースコード及び前記ソフトウェアに関する複数の第2のソースコードのそれぞれの説明文を大規模言語モデルを用いて生成するように構成されている説明文生成部と、それぞれの前記説明文の特徴量を算出するように構成されている特徴量算出部と、前記第2のソースコードに係る前記特徴量ごとに前記第1のソースコードに係る特徴量との類似性を評価するように構成されている類似性評価部と、前記類似性の評価の結果に基づく情報を出力するように構成されている出力部と、を有する。
【発明の効果】
【0010】
或るソースコードに関連するソースコードを特定する精度を向上させることができる。
【図面の簡単な説明】
(【0011】以降は省略されています)

この特許をJ-PlatPat(特許庁公式サイト)で参照する

関連特許

NTT株式会社
圧力センサ
22日前
NTT株式会社
光デバイス
29日前
NTT株式会社
信号送信装置
1か月前
NTT株式会社
光信号処理装置
1か月前
NTT株式会社
復号装置及び復号方法
7日前
NTT株式会社
推定装置及び推定方法
15日前
NTT株式会社
解析装置および解析方法
21日前
NTT株式会社
通信システム、及び通信方法
1か月前
NTT株式会社
音声抽出装置及び音声抽出方法
1か月前
NTT株式会社
情報処理装置、及び情報処理方法
1日前
NTT株式会社
情報処理装置、及び情報処理方法
1日前
NTT株式会社
通信システム、方法及びプログラム
7日前
NTT株式会社
検索装置、検索方法及びプログラム
29日前
NTT株式会社
秘匿計算システム及び秘匿計算方法
29日前
NTT株式会社
映像処理装置、方法及びプログラム
11日前
NTT株式会社
秘匿計算システム及び秘匿計算方法
29日前
NTT株式会社
交通量推定装置及び交通量推定方法
15日前
NTT株式会社
通信システム、方法及びプログラム
7日前
NTT株式会社
光ファイバの群遅延時間測定システム
21日前
NTT株式会社
情報処理装置、方法およびプログラム
29日前
NTT株式会社
イオン伝送装置、及びイオン伝送方法
1か月前
NTT株式会社
座屈剥離構造の予測装置および予測方法
7日前
NTT株式会社
電子署名システム、方法及びプログラム
7日前
NTT株式会社
量子鍵配送システム及び量子鍵配送方法
2日前
NTT株式会社
データ解析装置、方法およびプログラム
29日前
NTT株式会社
単一光子生成装置、及び単一光子生成方法
1か月前
NTT株式会社
微生物の土壌中での生存性を調節する方法
2日前
NTT株式会社
周期検出装置、周期検出方法及びプログラム
1か月前
NTT株式会社
測定装置、測定方法、及び、測定プログラム
3日前
NTT株式会社
推論装置、学習装置、推論方法、及びプログラム
21日前
NTT株式会社
推定装置、復元装置、推定方法、およびプログラム
今日
NTT株式会社
情報処理システム、情報処理装置および情報処理方法
8日前
NTT株式会社
組合せ最適化方法、組合せ最適化装置、及びプログラム
11日前
NTT株式会社
通信品質予測装置、通信品質予測方法、及びプログラム
14日前
NTT株式会社
伝搬グラフ復元装置、伝搬グラフ復元方法、及びプログラム
7日前
NTT株式会社
基地局及び端末
1か月前
続きを見る