TOP
|
特許
|
意匠
|
商標
特許ウォッチ
Twitter
他の特許を見る
公開番号
2024167144
公報種別
公開特許公報(A)
公開日
2024-12-02
出願番号
2023125438
出願日
2023-08-01
発明の名称
要約生成方法、要約生成システム、及びコンピュータープログラム
出願人
犀動智能科技股ふん有限公司
代理人
個人
,
個人
主分類
G06F
40/56 20200101AFI20241125BHJP(計算;計数)
要約
【課題】言語モデルの性能を向上し、汎用性のより高い要約生成機能を提供する。
【解決手段】要約生成方法は、対象のテキストデータに対して、トークン分割を実行し、分割されたトークンの数が所定の閾値以上であると判断される場合において、対象のテキストデータをフロントエンド言語モデルに入力し、生成的手法により、自然言語で表現され、キャラクター数が対象のテキストデータのキャラクター数より少ない、プリ処理されたテキストデータを得てから、プリ処理されたテキストデータをバックエンド言語モデルに入力し、生成的手法により、自然言語で表現され、キャラクター数がプリ処理されたテキストデータのキャラクター数より少ない、要約結果を得て、要約結果をユーザ側装置に送信して出力させる。
【選択図】図2
特許請求の範囲
【請求項1】
ユーザ側装置に電気的に接続する要約生成システムにより実行される要約生成方法であって、前記要約生成システムには、機械学習技術により実現されるフロントエンド言語モデル及びバックエンド言語モデルが格納されており、前記要約生成方法は、
A)対象のテキストデータに対して、トークン分割を実行し、分割されたトークンの数が所定の閾値以上であるかどうかを判断するステップと、
B)前記分割されたトークンの数が前記所定の閾値以上であると判断される場合において、前記対象のテキストデータを前記フロントエンド言語モデルに入力し、生成的手法により、自然言語で表現され、キャラクター数が前記対象のテキストデータのキャラクター数より少ない、プリ処理されたテキストデータを得てから、前記プリ処理されたテキストデータを前記バックエンド言語モデルに入力し、生成的手法により、自然言語で表現され、キャラクター数が前記プリ処理されたテキストデータのキャラクター数より少ない、第1の要約結果を得て、前記第1の要約結果を前記ユーザ側装置に送信して出力させるステップと、
C)前記分割されたトークンの数が前記所定の閾値以上でないと判断される場合において、前記対象のテキストデータを前記バックエンド言語モデルに入力し、生成的手法により、自然言語で表現され、キャラクター数が前記対象のテキストデータのキャラクター数より少ない、第2の要約結果を得て、前記第2の要約結果を前記ユーザ側装置に送信して出力させるステップと、を含む、
要約生成方法。
続きを表示(約 1,900 文字)
【請求項2】
ステップB)において、前記要約生成システムは、前記対象のテキストデータと共に、言語モデルにより予測されたソフトプロンプトをさらに、前記フロントエンド言語モデルに入力する、請求項1に記載の要約生成方法。
【請求項3】
ステップA)の前に、D)前記ユーザ側装置から音声データを受信し、前記音声データが表す音声に基づいて、前記対象のテキストデータを生成するステップ、をさらに含む、請求項2に記載の要約生成方法。
【請求項4】
ステップD)においては、前記音声データが、単一の話者の音声を表す単一話者型、または、複数の話者の音声を表す複数話者型に属するかをさらに判断し、
生成された前記対象のテキストデータは、該音声データが前記複数話者型に属すると判断される場合においては、それぞれ前記複数の話者のうちの1つに対応する複数の発話部分を含み、
ステップB)において、前記フロントエンド言語モデルに入力された前記ソフトプロンプトは、前記音声データが前記単一話者型に属する場合においては、前記単一話者型に対応する第1のソフトプロンプトであり、前記音声データが前記複数話者型に属する場合においては、前記複数話者型に対応すると共に前記第1のソフトプロンプトとは異なる第2のソフトプロンプトである、請求項3に記載の要約生成方法。
【請求項5】
ユーザ側装置に電気的に接続する処理ユニットと、
前記処理ユニットに電気的に接続する記憶ユニットと、を含み、
前記記憶ユニットには、機械学習技術により実現されるフロントエンド言語モデル及びバックエンド言語モデルが格納されており、
前記処理ユニットは、
対象のテキストデータに対して、トークン分割を実行し、分割されたトークンの数が所定の閾値以上であるかどうかを判断し、
前記分割されたトークンの数が前記所定の閾値以上であると判断される場合において、前記対象のテキストデータを前記フロントエンド言語モデルに入力し、生成的手法により、自然言語で表現され、キャラクター数が前記対象のテキストデータのキャラクター数より少ない、プリ処理されたテキストデータを得てから、前記プリ処理されたテキストデータを前記バックエンド言語モデルに入力し、生成的手法により、自然言語で表現され、キャラクター数が前記プリ処理されたテキストデータのキャラクター数より少ない、第1の要約結果を得て、前記第1の要約結果を前記ユーザ側装置に送信して出力させ、
前記分割されたトークンの数が前記所定の閾値以上でないと判断される場合において、前記対象のテキストデータを前記バックエンド言語モデルに入力し、生成的手法により、自然言語で表現され、キャラクター数が前記対象のテキストデータのキャラクター数より少ない、第2の要約結果を得て、前記第2の要約結果を前記ユーザ側装置に送信して出力させるように構成される、
要約生成システム。
【請求項6】
前記処理ユニットは、前記対象のテキストデータと共に、言語モデルにより予測されたソフトプロンプトをさらに、前記フロントエンド言語モデルに入力する、請求項5に記載の要約生成システム。
【請求項7】
前記処理ユニットは、前記ユーザ側装置から音声データを受信し、前記音声データが表す音声に基づいて、前記対象のテキストデータを生成するようにさらに構成される、請求項6に記載の要約生成システム。
【請求項8】
前記処理ユニットは、前記音声データが、単一の話者の音声を表す単一話者型、または、複数の話者の音声を表す複数話者型に属するかを判断するようにさらに構成され、
生成された前記対象のテキストデータは、該音声データが前記複数話者型に属すると判断される場合においては、それぞれ前記複数の話者のうちの1つに対応する複数の発話部分を含み、
前記フロントエンド言語モデルに入力された前記ソフトプロンプトは、前記音声データが前記単一話者型に属する場合においては、前記単一話者型に対応する第1のソフトプロンプトであり、前記音声データが前記複数話者型に属する場合においては、前記複数話者型に対応すると共に前記第1のソフトプロンプトとは異なる第2のソフトプロンプトである、請求項7に記載の要約生成システム。
【請求項9】
コンピューターシステムにより実行されると、前記コンピューターシステムに、機械学習により実現されるフロントエンド言語モデル及びバックエンド言語モデルを用いて、請求項1から4のいずれか一項に記載の要約生成方法を実行させる、コンピュータープログラム。
発明の詳細な説明
【技術分野】
【0001】
本発明は、要約生成方法に関し、特に、テキストデータに適用する要約生成方法に関する。本発明はさらに、テキストデータに適用する要約生成システム及びコンピュータープログラムに関する。
続きを表示(約 3,200 文字)
【背景技術】
【0002】
自然言語は、人間がコミュニケーションをする際に、自分の考えを表現する主な言語である。従って、自然言語処理は、幅広い適用範囲を持ち、例えば、音声識別、機械翻訳、テキスト分類、質問応答システムなどの具体的な適用例が挙げられる。
機械学習技術の発展に伴い、人工知能分野では自然言語処理が人気の研究方向となっている。そのため、近年、言語モデルは、種類が豊富になっただけでなく、性能も継続的に向上している。しかしながら、言語モデルの性能の発揮はその使用方法に密接的に関係しており、言語モデルをより効果的に利用し利用効率を向上させることが、新たな研究方向になっている。
【先行技術文献】
【特許文献】
【0003】
中国特許出願公開第114647720号明細書
中国特許出願公開第115577096号明細書
【発明の概要】
【発明が解決しようとする課題】
【0004】
従って、本発明の目的は、言語モデルをより効果的に利用する要約生成方法、要約生成システム、及びそのコンピュータープログラムを提供することにある。
【課題を解決するための手段】
【0005】
要約生成方法は、ユーザ側装置に電気的に接続する要約生成システムにより実行される。要約生成システムには、機械学習技術により実現されるフロントエンド言語モデル及びバックエンド言語モデルが格納されている。
要約生成方法は、A)対象のテキストデータに対して、トークン分割を実行し、分割されたトークンの数が所定の閾値以上であるかどうかを判断するステップと、B)分割されたトークンの数が所定の閾値以上であると判断される場合において、対象のテキストデータをフロントエンド言語モデルに入力し、生成的手法により、自然言語で表現され、キャラクター数が対象のテキストデータのキャラクター数より少ない、プリ処理されたテキストデータを得てから、プリ処理されたテキストデータをバックエンド言語モデルに入力し、生成的手法により、自然言語で表現され、キャラクター数がプリ処理されたテキストデータのキャラクター数より少ない、第1の要約結果を得て、第1の要約結果をユーザ側装置に送信して出力させるステップと、C)分割されたトークンの数が所定の閾値以上でないと判断される場合において、対象のテキストデータをバックエンド言語モデルに入力し、生成的手法により、自然言語で表現され、キャラクター数が対象のテキストデータのキャラクター数より少ない、第2の要約結果を得て、第2の要約結果をユーザ側装置に送信して出力させるステップと、を含む。
要約生成システムは、ユーザ側装置に電気的に接続する処理ユニットと、処理ユニットに電気的に接続する記憶ユニットと、を含む。
記憶ユニットには、機械学習技術により実現されるフロントエンド言語モデル及びバックエンド言語モデルが格納されている。
処理ユニットは、対象のテキストデータに対して、トークン分割を実行し、分割されたトークンの数が所定の閾値以上であるかどうかを判断し、分割されたトークンの数が所定の閾値以上であると判断される場合において、対象のテキストデータをフロントエンド言語モデルに入力し、生成的手法により、自然言語で表現され、キャラクター数が対象のテキストデータのキャラクター数より少ない、プリ処理されたテキストデータを得てから、プリ処理されたテキストデータをバックエンド言語モデルに入力し、生成的手法により、自然言語で表現され、キャラクター数がプリ処理されたテキストデータのキャラクター数より少ない、第1の要約結果を得て、第1の要約結果をユーザ側装置に送信して出力させ、分割されたトークンの数が所定の閾値以上でないと判断される場合において、対象のテキストデータをバックエンド言語モデルに入力し、生成的手法により、自然言語で表現され、キャラクター数が対象のテキストデータのキャラクター数より少ない、第2の要約結果を得て、第2の要約結果をユーザ側装置に送信して出力させるように構成される。
コンピュータープログラムは、コンピューターシステムにより実行されると、コンピューターシステムに、機械学習により実現されるフロントエンド言語モデル及びバックエンド言語モデルを用いて、前述の要約生成方法を実行させる。
【発明の効果】
【0006】
本発明に係る要約生成方法を実行することにより、要約生成システムは、対象のテキストデータの分割されたトークンの数が所定の閾値以上であると判断される(すなわち、対象のテキストデータのキャラクター数が比較的に多い)場合において、対象のテキストデータを、フロントエンド言語モデルに入力しプリ処理されたテキストデータを得てから、入力されたテキストデータをバックエンド言語モデルに入力して要約結果を得る。これによって、バックエンド言語モデルに入力キャラクター数の制限が設けられている場合において、本発明は、バックエンド言語モデルの応用範囲を広げ、汎用性のより高い要約生成機能を提供することができる。また、フロントエンド言語モデルは、生成的手法により、プリ処理されたテキストデータを生成するため、対象のテキストデータに繰り返しの内容が多い場合において、抽出的手法よりも、対象のテキストデータの内容をまとめることができ、バックエンド言語モデルに入力される情報密度の高いプリ処理されたテキストデータを生成することができる。
本発明の他の特徴及び利点は、添付の図面を参照する以下の実施形態の詳細な説明において明白になる。
【図面の簡単な説明】
【0007】
本発明の一実施形態の要約生成システム及びそれに適用するユーザ側装置が例示的に示されるブロック図である。
該実施形態の要約生成方法が例示的に示されるフローチャートである。
【発明を実施するための形態】
【0008】
本発明をより詳細に説明する前に、特に明記しない限り、本明細書における「電気的に接続する」という用語は、コンピューターハードウェア(例えば、電子システム、設備、装置、ユニット、部品など)の間の結合関係を説明するために使用され、複数のコンピューターハードウェアが、導体または半導体材料を介して物理的に接続する「有線電気接続」、または、無線通信技術(例えば、無線ネットワーク、ブルートゥース(登録商標)、電気誘導など)を利用して無線データ伝送を実現する「無線電気接続」を示す。一方、特に明記しない限り、本明細書における「電気的に接続する」という用語はさらに、複数のコンピューターハードウェアが、互いに直接に結合する「直接電気接続」、または、他のコンピューターハードウェアを介して互いに結合する「間接電気接続」を示す。
【0009】
本発明の要約生成システム1は、ネットワークを介して、複数のユーザ側装置5に電気的に接続するように構成される。ユーザ側装置5は、ユーザによって使用されるスマートフォン、タブレットコンピューター、ノート型コンピューター、またはデスクトップコンピューターである。説明の便宜上、以下では、図1に示されるように、1つのユーザ側装置5のみに電気的に接続する要約生成システム1について説明する。
【0010】
本実施形態において、要約生成システム1は、サーバ設備であり、要約生成システム1は、処理ユニット11と、処理ユニット11に電気的に接続する記憶ユニット12と、を含む。処理ユニット11は、ネットワークを介して、ユーザ側装置5に電気的に接続する。
(【0011】以降は省略されています)
特許ウォッチbot のツイートを見る
この特許をJ-PlatPatで参照する
関連特許
個人
認証システム
11日前
個人
マウス用テーブル
1か月前
個人
保証金管理システム
5日前
個人
管理装置
2か月前
個人
鑑定証明システム
11日前
個人
人的価値発掘システム
1か月前
個人
契約管理サーバ
1か月前
個人
特徴検討支援システム
2か月前
個人
管理装置
2か月前
アズビル株式会社
防爆装置
1か月前
個人
業界地図作成システム
1か月前
個人
技術マッチングシステム
17日前
株式会社セガフェイブ
遊戯機
1か月前
キヤノン電子株式会社
情報処理装置
1か月前
株式会社MRC
集客システム
5日前
株式会社宗建
SNSサーバー
1か月前
トヨタ自動車株式会社
分析装置
5日前
キヤノン株式会社
印刷管理装置
3日前
株式会社ジール
文章の分析装置
1か月前
株式会社ネットブリッジ
展示販売装置
12日前
キヤノン株式会社
印刷制御装置
26日前
個人
配送システムおよび同包箱
1か月前
個人
選択操作音声出力システム
1か月前
ミサワホーム株式会社
管理装置
1か月前
ミサワホーム株式会社
システム
1か月前
株式会社奥村組
削孔位置検出方法
1か月前
個人
動作のデザイン評価の方法及び装置
1か月前
アスエネ株式会社
森林管理の方法
1か月前
ミサワホーム株式会社
プログラム
11日前
個人
文字入力方法、文字入力プログラム
18日前
トヨタ自動車株式会社
車両
2か月前
大同特殊鋼株式会社
棒材計数装置
1か月前
オムロン株式会社
認証中継サーバ
1か月前
個人
口座悪用を防止する口座管理システム
1か月前
個人
後払いポイントシステム「先用後利」
12日前
日本電気株式会社
システム及び方法
1か月前
続きを見る
他の特許を見る