TOP特許意匠商標
特許ウォッチ Twitter
公開番号2024043720
公報種別公開特許公報(A)
公開日2024-04-02
出願番号2022148871
出願日2022-09-20
発明の名称調波音・背景音を用いた音声補償プログラム、装置及び方法
出願人KDDI株式会社
代理人個人,個人
主分類G10L 19/005 20130101AFI20240326BHJP(楽器;音響)
要約【課題】より不快感の少ない音声補償を実施可能な音声補償プログラムを提供する。
【解決手段】本プログラムは、音声信号の欠損部分を補償する音声補償プログラムであり、音声信号における欠損部分の前の信号部分に基づき、又は予め設定された周波数条件に基づき、特定の周波数成分を有する音響信号である調波音信号を生成する調波音生成手段と、調波音信号を含む補償信号を欠損部分に挿入する補償信号挿入手段としてコンピュータを機能させる。また本音声補償プログラムは、予め用意された若しくは周囲の音として取得された音響信号に基づき、又は欠損部分の前の信号部分に基づき、所定の低周波数帯でピークをなす振幅スペクトルを有する音響信号である背景音信号を生成する背景音生成手段と、調波音信号と背景音信号とから補償信号を生成する補償信号生成手段としてコンピュータを更に機能させることも好ましい。
【選択図】図1
特許請求の範囲【請求項1】
音声信号の欠損部分を補償する音声補償プログラムであって、
当該音声信号における当該欠損部分の前の信号部分に基づき、又は予め設定された周波数条件に基づき、特定の周波数成分を有する音響信号である調波音信号を生成する調波音生成手段と、
当該調波音信号を含む補償信号を当該欠損部分に挿入する補償信号挿入手段と
してコンピュータを機能させることを特徴とする音声補償プログラム。
続きを表示(約 1,500 文字)【請求項2】
前記調波音生成手段は、当該欠損部分の前の信号部分の基本周波数を決定し、又は当該予め設定された周波数条件としての基本周波数を取得し、当該基本周波数に係る基本波周波数成分と、当該基本周波数に対する高調波周波数に係る高調波周波数成分とを有する当該調波音信号を生成することを特徴とする請求項1に記載の音声補償プログラム。
【請求項3】
前記調波音生成手段は、振幅が当初、当該欠損部分の前の信号部分の振幅に基づき決定された値をとり、その後時間とともに減少する当該調波音信号を生成することを特徴とする請求項1又は2に記載の音声補償プログラム。
【請求項4】
前記補償信号は、少なくとも信号の先頭に当該調波音信号を含み、
前記補償信号挿入手段は、当該補償信号を、当該欠損部分の直前の信号部分に繋げる形で挿入する
ことを特徴とする請求項1又は2に記載の音声補償プログラム。
【請求項5】
予め用意された若しくは周囲の音として取得された音響信号に基づき、又は当該音声信号における当該欠損部分の前の信号部分に基づき、所定の低周波数帯でピークをなす振幅スペクトルを有する音響信号である背景音信号を生成する背景音生成手段と、
当該調波音信号と当該背景音信号とから当該補償信号を生成する補償信号生成手段と
してコンピュータを更に機能させることを特徴とする請求項1又は2に記載の音声補償プログラム。
【請求項6】
前記背景音生成手段は、当該音響信号における又は当該欠損部分の前の信号部分における音声区間ではない信号部分に対し、当該音声区間の信号部分における振幅スペクトルに対応した周波数依存性を有する重み付け処理及び/又はフィルタ処理を施して当該背景音信号を生成することを特徴とする請求項5に記載の音声補償プログラム。
【請求項7】
前記背景音生成手段は、当該周囲の音として取得された音響信号における音声区間の信号部分の振幅と、当該音声区間ではない信号部分の振幅との比が所定以下である場合、当該周囲の音として取得された音響信号に基づき、当該背景音信号を生成することを特徴とする請求項5に記載の音声補償プログラム。
【請求項8】
前記補償信号生成手段は、当該調波音信号と当該背景音信号とを合成して、又は当該調波音信号の後に当該背景音信号を繋げて、当該補償信号を生成することを特徴とする請求項5に記載の音声補償プログラム。
【請求項9】
前記補償信号生成手段は、当該欠損部分の時間長が所定以上である場合に、当該欠損部分の前の信号部分における音声区間の信号部分の振幅と、当該音声区間ではない信号部分の振幅との比について単調増加関数となる合成比を用い、当該調波音信号と当該背景音信号とを合成することによって、当該補償信号を生成することを特徴とする請求項8に記載の音声補償プログラム。
【請求項10】
音声信号の欠損部分を補償する音声補償プログラムであって、
予め用意された若しくは周囲の音として取得された音響信号に基づき、又は当該音声信号における当該欠損部分の前の信号部分に基づき、所定の低周波数帯でピークをなす振幅スペクトルを有する音響信号である背景音信号を生成する背景音生成手段と、
当該背景音信号を含む補償信号を当該欠損部分に挿入する補償信号挿入手段と
してコンピュータを機能させることを特徴とする音声補償プログラム。
(【請求項11】以降は省略されています)

発明の詳細な説明【技術分野】
【0001】
本発明は、音声信号の欠損部分を補償する技術に関する。
続きを表示(約 2,400 文字)【背景技術】
【0002】
現在、音声パケットを利用したデジタル音声通信が盛んに行われている。デジタル音声通信においては、パケットロスの発生や通信路容量の制約等によって、音声信号に時間的な欠損部分が生じることもあり得る。このような欠損部分を有する音声信号は、受聴者に不快感を与え、主観品質(ユーザ体感品質)を著しく低下させることが懸念される。また、このような音声信号における欠損部分の発生は、インターネット回線を利用したマルチメディア通信やストリーミング再生等でも大きな問題となっている。
【0003】
例えば、リアルタイム性をそれほど要求されない音声伝送では、同一の音声データを繰り返し送信することによって、この欠損部分を補完することもできる。これに対し、音声通信等のリアルタイム性が強く求められる音声伝送においては、欠損部分の補完方法として従来、パケットロス隠蔽(PLC, Packet Loss Concealment)が提案されてきた。
【0004】
PLCは、非特許文献1(ITU-T勧告 G.711, Appendix I)において標準化された欠損補完方法であり、このPLCとして具体的に、波形置換法や予測置換法が提唱されている。ここで、この標準化されたPLCは、断続長が60ms(ミリ秒)以下のパケットロスにしか対応できず、実際このPLCによっても、60msを超えた欠損部分は無音となってしまう。これは、相当に長時間のパケットロスが発生した音声信号では、音声波形の物理的修復がもはや困難であることによる。しかしながら現状、60msを超える長時間のパケットロスは頻繁に発生しており、この標準化されたPLCでは、このようなパケットロスの発生に対し厳密に対処することは不可能となっている。
【0005】
そこで現在、長時間のパケットロスの発生にも対応可能な欠損補完方法が検討されている。例えば非特許文献2に開示されているように、人間の脳における特に聴覚を司る部分には、劣悪な条件下でも音声による円滑なコミュニケーションを可能にするための様々な機構が存在する。その1つが、非特許文献3及び4で詳細に説明されている連続聴効果(音素修復現象、音韻修復現象)である。
【0006】
連続聴効果は、音声信号の欠損部分が、音声とは無関係な音響信号で満たされることによって、途切れているはずの音が滑らかにつながって知覚される現象であり、聴覚の錯覚現象の1つとして捉えられている。このような聴覚における錯覚が生じる仕組みを解明して当該錯覚を音声信号処理に応用すべく、現在、例えば非特許文献5に開示されたような有効な連続聴効果を生じさせるための研究が、盛んに進められている。
【先行技術文献】
【非特許文献】
【0007】
ITU-T勧告 G.711, Appendix I, “A high quality low-complexity algorithm for packet loss concealment with G.711”, 1999年
R. M. Warren, “Auditory Perception: A New Analysis and Synthesis”, Cambridge University Press, Cambridge, 1999年
G. A. Miller and J. C. R. Licklider, “The intelligibility of interrupted speech”, Journal of the Acoustical Society of America, vol.22, pp.167-173, 1950年
R. M. Warren, “Perceptual restoration of missing speech sounds”, Science. 167, pp.392-393, 1970年
M. Kashino, “Phonemic Restoration: The brain creates missing speech sounds”, Acoustical Science and Technology, 27(6), pp.318-321, 2006年
B. C. J. Moore, “An Introduction to the Psychology of Hearing”, 5th Edition, Emerald Group Publishing Ltd, 2003年
【発明の概要】
【発明が解決しようとする課題】
【0008】
しかしながら、上述した連続聴効果を有効に生じさせるためには、非特許文献5において指摘されているように、(条件1)欠損部分に十分に大きなパワーを持つ音響信号が挿入され、マスキング効果が生じること、及び(条件2)欠損部分に隙間なく音響信号が挿入され、欠損部分の開始時において音の途切れが知覚されないこと、が必要であるとされてきた。
【0009】
したがって従来、連続聴効果を用いた音声補完の方法として、ハイパワーの広帯域雑音(ホワイトノイズ)を、欠損部分に隙間なく挿入するやり方が提案されてきたのみであった。またそれ故、このような従来の方法では、音声補完処理が施されたにもかかわらず依然、受聴者に不快感が残り、例えば音声通信における主観品質の向上も困難となっていたのである。
【0010】
そこで、本発明は、より不快感の少ない音声補償を実施可能な音声補償プログラム、装置及び方法を提供することを目的とする。
【課題を解決するための手段】
(【0011】以降は省略されています)

特許ウォッチbot のツイートを見る
この特許をJ-PlatPatで参照する

関連特許

KDDI株式会社
制御装置、方法及びプログラム
29日前
KDDI株式会社
制御装置、方法及びプログラム
29日前
KDDI株式会社
無線周波数信号で光を変調する通信装置
4日前
KDDI株式会社
点群復号装置、点群復号方法及びプログラム
19日前
KDDI株式会社
画像復号装置、画像復号方法及びプログラム
19日前
KDDI株式会社
画像復号装置、画像復号方法及びプログラム
19日前
KDDI株式会社
画像復号装置、画像復号方法及びプログラム
19日前
KDDI株式会社
画像復号装置、画像復号方法及びプログラム
19日前
KDDI株式会社
情報処理装置、情報処理方法及びプログラム
今日
KDDI株式会社
点群復号装置、点群復号方法及びプログラム
19日前
KDDI株式会社
点群復号装置、点群復号方法及びプログラム
19日前
KDDI株式会社
点群復号装置、点群復号方法及びプログラム
19日前
KDDI株式会社
情報処理装置、情報処理方法及びプログラム
12日前
KDDI株式会社
文の知識誤りを検出する知識判定装置、プログラム及び方法
12日前
トヨタ自動車株式会社
情報処理装置、情報処理方法、プログラム
5日前
KDDI株式会社
メッシュ復号装置、メッシュ符号化装置、メッシュ復号方法及びプログラム
19日前
KDDI株式会社
メッシュ復号装置、メッシュ符号化装置、メッシュ復号方法及びプログラム
19日前
KDDI株式会社
メッシュ復号装置、メッシュ符号化装置、メッシュ復号方法及びプログラム
19日前
KDDI株式会社
メッシュ復号装置、メッシュ符号化装置、メッシュ復号方法及びプログラム
19日前
KDDI株式会社
測位データを補間するプログラム、装置及び方法、並びに対象数推定プログラム
今日
KDDI株式会社
特徴量間の交互作用を考慮した対象数推定プログラム、装置、システム及び方法
12日前
トヨタ自動車株式会社
車両データ管理装置、車両データ管理プログラムおよび車両データ管理方法
21日前
株式会社フジコー
吸音材
29日前
個人
歌唱補助マスク
13日前
アルス株式会社
ペダル式入力装置
1日前
株式会社JVCケンウッド
情報処理装置
19日前
株式会社フェルナンデス
電気ギター用弦振動持続装置
19日前
ヤマハ株式会社
管楽器用スワブ
27日前
株式会社レゾナック
吸音材及び車両部材
20日前
株式会社河合楽器製作所
自動演奏装置及び自動演奏プログラム
29日前
トヨタ自動車株式会社
車室の床下構造
27日前
富士通株式会社
評価プログラム、評価方法、評価装置
21日前
株式会社NTTドコモ
発話スタイル改善支援装置
26日前
株式会社河合楽器製作所
鍵盤楽器の鍵盤装置
28日前
岐阜プラスチック工業株式会社
遮音パネル及び遮音壁用ユニット
今日
株式会社河合楽器製作所
鍵盤楽器の鍵盤装置
28日前
続きを見る