发布时间: 2024-09-14
作者:张瑞佳 专利工程师
引言
图像重采样作为计算机视觉领域中的一项重要技术,近年来出现了大量的技术创新成果,由此产生了越来越多的专利保护需求。随着机器学习技术的快速发展,机器学习的算法模型被广泛地应用于图像重采样技术中。基于算法模型实现的图像重采样过程,新手代理师在此类专利申请文件的整体布局和技术细节撰写方面可能存在难以准确把握的问题。针对上述情况,笔者基于专利代理工作中的实践经验,通过对图像重采样技术的两种模型进行分析对比,基于算法模型的改进点对图像重采样专利申请文件的撰写提供一种可选思路。
概述
图像重采样(Image Rescaling,LR)是一种图像处理技术,重采样过程本质上是图像恢复过程,分为正向处理和逆向处理两个阶段。正向阶段是为了缩小图像,或称为下采样或降采样,是指通过技术手段将原始高分辨率图像生成视觉友好的低分辨率图像,以用于低带宽传输。逆向阶段是为了放大图像,或称为上采样,是指使用该低分辨率图像重建高分辨率图像,并尽可能保留原图细节。图像重采样技术能够有效节省图像的传输和存储成本,确保传输过程中图像的可视化意义,同时实现高保真度的重建。
两种模型
(1)IRN模型
可逆重缩放网络(Invertible Rescaling Network,IRN)[1]是实现图像重采样任务的一种较好的模型。
图1 IRN模型结构图(图1摘自《Invertible Rescaling Network and Its Extensions》)
参考图1,IRN模型采用可逆模块(Inv Block)实现图像重采样的正向过程。在正向过程中,首先对原始图像x进行哈尔小波变换,完成图像的2的指数级下采样与高频信息与低频信息的拆分。然后,将高频信息与低频信息进行拼接后送入至可逆模块中,可逆模块的设计主要基于Dinh的可逆神经网络耦合层结构[2]实现。最后正向过程输出时只保留低频子图,高频信息在逆向过程则完全由高斯分布来采样建模。在逆向过程中,从高斯分布中采样得到高频信息和正向过程输出的低分辨率图像拼接在一起,从模型另一端输入并进行逆变换,最终得到和原图分辨率相同的重建图像。
然而,目前IRN的模型性能已经到达一定的瓶颈,基于当前的框架即使堆叠模型的复杂度也无法提高重建高分辨率图像时的质量。在此基础上,字节跳动-火山引擎多媒体实验室针对图像重采样模型面向图像压缩的鲁棒性,首次尝试了有损压缩下的图像重采样性能优化,设计了一种非对称可逆重采样框架,即基于非对称可逆框架的抗压缩图像重采样模型(Self-Asymmetric Invertible Network,SAIN)[3]。
(2)SAIN模型
该研究将一组可逆网络模块解耦成降采样(Downscaling Module)和压缩模拟(Compression Simulator)两个部分,使用混合高斯分布建模分辨率下降和压缩失真造成的联合信息损失。SAIN模型的核心创新点还包括:提出了非对称(asymmetric)式的可逆图像重采样框架,解决了先前方法中由于严格对称性导致的性能下降问题;提出了增强可逆模块(Enhanced Invertible Block,E-InvBlock)。SAIN模型的架构主要进行了以下四个方面的改进,具体包括:整体框架方面、网络结构方面、信息损失建模方面以及目标函数方面。
图2 SAIN模型结构图(图2摘自《Self-Asymmetric Invertible Network for Compression-Aware Image Rescaling》)
参考图2,图2(a)示出了SAIN模型的正向过程,图2(b)示出了SAIN模型的逆向过程,图2(c)示出了SAIN模型的V-InvBlock模块的结构图。
图像重采样的专利撰写
通过分析SAIN模型相比于IRN模型的改进点,接下来,笔者将从专利撰写角度对如何针对上述技术改进点的保护进行探讨。
(1)整体框架方面。基于中间层特征的相似性,将一组可逆网络模块解耦成降采样和压缩模拟两个部分。由于SAIN模型相比于相关方案中的图像重采样模型,模型的整体框架具有较大的改进点,在专利撰写过程中,可以对模型的整体框架布局作为一个保护主题。例如可以将主题名称确定为“图像处理系统”,在专利申请文件中,避免直接将“模型”作为一种保护主题,以规避将一种模型作为保护主题可能导致的客体问题。
在“图像处理系统”的保护主题之下,分别对降采样模块和压缩模拟模块进行布局,具体包括:降采样模块和压缩模拟模块各自对应的接收数据,以及经过降采样处理后的降采样模块所输出数据的数据特点,压缩模拟模块对接收数据进行处理后生成的输出结果的数据特点,以及降采样模块和压缩模拟模块在整个图像处理系统中的具体作用,等等。另外,从专利侵权角度分析,考虑到专利侵权判定的全面覆盖原则,对于模型训练和模型应用(图像处理)的过程可以分别单独布局权利要求,分别单独描述各自所具有的技术特征。
(2)网络结构方面。网络结构包括E-InvBlock模块,在E-InvBlock模块中增加一个加性变换,使得共享大量运算的前提下可以高效地建模压缩前/压缩后的两组LR图像;压缩模拟部分则由极简可逆模块(Vanilla Invertible Block,V-InvBlock)实现。在专利撰写过程中,可以了从模型网络结构和建模先验信息两个方面实现对SAIN模型的保护。
对于模型网络结构而言,与相关技术中模型仅采用一种可逆模块相比,SAIN模型增加了新的增强可逆模块。在图像处理系统这个保护主题中,可以分别对E-InvBlock模块与V-InvBlock模块的内部网络结构进行保护,例如,E-InvBlock模块的内部网络结构所包括的具体网络分支,E-InvBlock模块的内部增加了对高质量的LR图像y进行编码处理的网络分支,并且模型内部的网络分支中使用不同的神经网络函数与计算方式对各项先验信息进行编码处理。
另外,对于降采样模块的具体实现过程,以其中一个E-InvBlock模块为例,从E-InvBlock模块的输入数据、中间计算结果以及模块的输出结果等对单个模块的实现过程进行说明。对于中间计算结果而言,可以通过E-InvBlock模块对输入数据的中间计算步骤的详细实现过程进行,对整个实现过程进行说明,完成单个E-InvBlock模块的计算过程介绍。进一步地,SAIN模型中包含多个E-InvBlock模块,将当前模块、上一模块与下一模块之间的连接关系进行限定,如上一模块的输出数据可以作为当前上一模块的输入数据,当前模块的输出结果作为下一模块的输入数据等,对于多个相同模块之间的处理过程,可以采用一个循环的写法来限定上述过程。
然后,介绍最后一个E-InvBlock模块与后续V-InvBlock模块之间的关系,包括E-InvBlock模块得到的输出结果与V-InvBlock模块接收的输入数据之间的关系,比如,V-InvBlock模块接收的输入数据与E-InvBlock模块得到的输出结果相同,或前者是后者的部分数据等等。通过上述技术特征的限定完整地描述整个处理过程。
对于建模先验信息而言,SAIN模型不仅将经过小波变换后分离出的高频信息和低频信息作为模型输入数据,而且还新增了高质量的LR图像y作为模型的其中一个输入,增加了模型的建模先验信息。在撰写过程中,以高质量的LR图像y作为建模先验信息为例,对具体实施例进行扩展。例如,可以使用图像的各类相关信息作为建模先验信息,如经过处理后的分辨率图像、图像结构信息、图像通道信息等,分析将上述不同类别的图像信息作为先验信息,对模型输出结果带来的影响,例如,从重建图像的性能指标变化对不同先验信息的差异进行分析。
(3)信息损失建模方面与目标函数方面。SAIN模型还包括图像重采样的逆向过程,在逆向过程中,逆向输入变量的确定取决于正向过程中被丢弃的变量以及具体变量分布,在IRN模型中可以是图像的高频变量,在SAIN模型可以是与图像相关的某一图像变量等;具体的变量分布可以由标准高斯分布改进为混合高斯分布等,混合高斯分布是由多个具有不同均值和方差的高斯分布组合而成,这些高斯分布组件的参数都可以通过模型的训练不断更新,因而具有更强的表征能力,对丢失的高频信息可以更好的建模。结合建模先验信息,设计多个模型损失函数,用于模型训练过程,以约束网络的可逆性、提高重建精度。
在撰写过程中,还需要注意技术问题、技术方案与技术效果三者的统一,例如:通过对可逆模块内部的网络结构进行改进,可以提升可逆模块对待处理信息的处理能力和非线性表达能力。增加更多的先验信息,以对重采样过程进行引导,提高上采样效果。通过改进已丢弃变量的变量分布,如将标准高斯分布改进为混合高斯分布,可以增强对丢失变量信息的表征能力,对丢失的变量信息进行更好的建模,等等。
另外,由于图像重采样技术可以广泛应用于各种不同的场景中,如地理信息系统(Geographic Information System,GIS)、医学影像分析领域、机器视觉与计算机视觉、视频处理和传输、数字摄影和图像处理等多种应用领域。对于涉及图像重采样技术的不同应用场景,除了对图像重采样的技术特征进行详细阐述之外,还需结合不同领域的具体使用场景,对图像重采样所解决的技术问题以及在相应场景中实现的技术效果进行说明,进一步增加专利申请文件的可读性。
以机器视觉和计算机视觉领域为例,在该技术领域中,图像重采样技术是图像预处理的重要步骤之一,通过对图像进行重采样处理,可以改善图像的质量和特征提取效果,提高后续处理的准确性和效率。例如,在目标检测、图像识别等任务中,通过调整图像的分辨率和尺寸可以更好地适应不同的处理需求。
小结
本文以图像重采样的两种算法模型为切入点,通过对SAIN模型相比于IRN模型的改进点进行分析,对图像重采样的专利申请文件的布局思路与技术要点的撰写进行了简单的介绍,为相关领域的代理师提供一种可供参考的撰写方式,快速框定整篇专利申请文件的权利要求布局,并明确在说明书中需要着重描述的技术要点,提高撰写速度与质量。
以上内容仅为笔者在日常代理工作中对图像重采样技术在专利申请文件撰写中的技术理解和经验总结。由于经验和时间有限,文中若有不完善或不准确之处,欢迎批评与指正。
参考文献:
[1] M. Xiao et al., "Invertible Rescaling Network and Its Extensions," International Journal of Computer Vision, vol. 131, no. 1, pp. 134-159, Jan. 2023.
[2] L. Dinh, J. Sohl-Dickstein, and S. Bengio, "Density estimation using real NVP," in Proc. Int. Conf. Learn. Represent., 2017.
[3] Yang Jinhai ; Guo Mengxi ; Zhao Shijie ; Li Junlin ; Zhang Li,"Self-Asymmetric Invertible Network for Compression-Aware Image Rescaling,"