発明の詳細な説明【技術分野】 【0001】 本開示は、符号化装置、符号化プログラム、プリ処理装置、及びプリ処理プログラムに関する。 続きを表示(約 2,900 文字)【背景技術】 【0002】 近年、ニューラルネットワークを用いた符号化方法が注目されつつある。 【0003】 例えば、現画像と過去画像との動きベクトルを検出する動き検出処理と、動きベクトルから予測画像を生成する動き補償処理と、原画像と予測画像との差分画像を変換(例えば、DCT変換など)する変換処理などを、CNN(Convolutional Neural Network)を用いて行う符号化手法がある(例えば、非特許文献1)。このような符号化手法をエンドツーエンド(end-to-end)で最適化させることで、HEVC(High Efficiency Video Coding)などの従来型の符号化方式と同程度の符号化効率を得ることができる。 【0004】 また、ニューラルネットワークを用いた符号化手法と合わせて、符号化前に、プリ処理(preprocessing)を行う符号化手法もある(例えば、非特許文献2及び非特許文献3)。プリ処理を用いた符号化手法に関し、MS-SSIM(Multi-Scale Structural Similarity)又はVMAF(Video Multimethod Assessment Fusion)による主観画質指標を用いると、H.264などの従来型の符号化方式と比較して、符号化効率が向上することが報告されている。 【0005】 更に、プリ処理と符号化処理とを、画像に映る対象物を自動的に検出したり分類したりするマシンビジョンタスクに適用する技術もある(例えば、非特許文献4)。当該技術も、学習時には、ニューラルネットワークモデルで構成されるプリ処理、符号化処理、及びマシンビジョンタスクをエンドツーエンドで共同最適化を図るようにしている。 【先行技術文献】 【非特許文献】 【0006】 G. Lu, W. Ouyang, D. Xu, X. Zhang, C. Cai and Z. Gao, "DVC: An End-To-End Deep Video Compression Framework," 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019 April 7, pp. 10998-11007. A. Chadha and Y. Andreopoulos, "Deep Perceptual Preprocessing for Video Coding," 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2021, pp. 14847-14856. A. Chadha, R. Anam, I. Fadeev, V. Giotsas, and Y. Andreopoulos, “Escaping The Complexity-Bitrate-Quality Barriers Of Video Encoders Via Deep Perceptual Optimization,” SPIE2020, Optical Engineering + Applications. G. Lu, X. Ge, T. Zhong, J. Geng, and Q. Hu, “Preprocessing enhanced image compression for machine vision,” arXiv preprint arXiv:2206.05650, 2022. 【発明の概要】 【発明が解決しようとする課題】 【0007】 本開示は、一定以上の精度を有する映像符号化モデル及びプリ処理モデルを有する符号化装置、符号化プログラム、プリ処理装置、及びプリ処理プログラムを提供することを目的とする。 【課題を解決するための手段】 【0008】 第1の態様に係る符号化装置は、第1映像信号に対して、学習済の第1ニューラルネットワークモデルを用いてプリ処理を行い、プリ処理後の映像信号を出力するプリ処理部を有する。また、符号化装置は、プリ処理後の映像信号に対して符号化処理を行い、符号化された符号化映像信号を出力する映像符号化部を有する。ここで、第1ニューラルネットワークモデルに対する学習は、学習済の第2ニューラルネットワークモデルを含むニューラルネットワーク映像符号化部を用いて行われる。また、第2ニューラルネットワークモデルに対する学習は、第2映像信号に対して映像符号化部で符号化された符号化映像信号の符号量と、第2映像信号に対してニューラルネットワーク映像符号化部で符号化されたニューラルネットワーク符号化映像信号の符号量とに基づいて行われる。 【0009】 第2の態様に係る符号化プログラムは、符号化装置のコンピュータに実行させる符号化プログラムである。符号化プログラムは、第1映像信号に対して、学習済の第1ニューラルネットワークモデルを用いてプリ処理を行い、プリ処理後の映像信号を出力する処理をコンピュータに実行させる。また、符号化プログラムは、プリ処理後の映像信号に対して符号化処理を行い、符号化された符号化映像信号を出力する処理をコンピュータに実行させる。第1ニューラルネットワークモデルに対する学習は、学習済の第2ニューラルネットワークモデルを含むニューラルネットワーク映像符号化部を用いて行われる。また、第2ニューラルネットワークモデルに対する学習は、第2映像信号に対して映像符号化部で符号化された符号化映像信号の符号量と、第2映像信号に対してニューラルネットワーク映像符号化部で符号化されたニューラルネットワーク符号化映像信号の符号量とに基づいて行われる。 【0010】 第3の態様に係るプリ処理装置は、第1映像信号に対して、学習済の第1ニューラルネットワークモデルを用いてプリ処理を行い、プリ処理後の映像信号を符号化装置へ出力するプリ処理部を有する。符号化装置では、プリ処理後の映像信号に対して符号化処理が行われ、符号化された符号化映像信号を出力する。第1ニューラルネットワークモデルに対する学習は、学習済の第2ニューラルネットワークモデルを含むニューラルネットワーク映像符号化部を用いて行われる。また、第2ニューラルネットワークモデルに対する学習は、第2映像信号に対して映像符号化部で符号化された符号化映像信号の符号量と、第2映像信号に対してニューラルネットワーク映像符号化部で符号化されたニューラルネットワーク符号化映像信号の符号量とに基づいて行われる。 (【0011】以降は省略されています) この特許をJ-PlatPatで参照する