西安理工大学李军怀获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉西安理工大学申请的专利基于Transformer的无参考视频质量评价方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115439781B 。
龙图腾网通过国家知识产权局官网在2026-04-07发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211050847.1,技术领域涉及:G06V20/40;该发明授权基于Transformer的无参考视频质量评价方法是由李军怀;冯玉琴;崔颖安;王怀军;于蕾设计研发完成,并于2022-08-30向国家知识产权局提交的专利申请。
本基于Transformer的无参考视频质量评价方法在说明书摘要公布了:本发明公开了一种基于Transformer的无参考视频质量评价方法,首先下载视频质量评价的公开数据集KoNViD‑1k,其中包括视频数据以及对应的标签文件,然后构建基于Transformer的无参考视频质量评价方法的网络模型,将视频帧图像送到多层级联的使用移动窗口的分层视觉变换器Swin‑Transformer模块中提取视频特征和对应的质量分数文件;将数据集划分为训练集、测试集和验证集,随之对应的标签文件也划分方式划分为训练集、测试集和验证集;最后加载视频特征文件和质量分数文件送到基于特征融合的金字塔聚合模块中,训练模型,最终得到待评测视频的质量分数。本发明能够完成对视频的质量评价。
本发明授权基于Transformer的无参考视频质量评价方法在权利要求书中公布了:1.基于Transformer的无参考视频质量评价方法,其特征在于,具体按照以下步骤实施: 步骤1、下载视频质量评价的公开数据集KoNViD-1k,其中包括视频数据以及对应的标签文件,将公开数据集中的视频数据处理成RGB格式视频帧并以.jpg格式保存; 所述步骤1具体按照以下步骤实施: 步骤1.1、下载视频质量评价所用的公开数据集,其中包括视频数据以及对应的标签文件; 步骤1.2、将步骤1.1中所得的视频数据集中取视频Vi,将视频Vi分解成n帧,如公式1所示; 1 其中,T代表视频分解得到的视频帧数集合,是视频的第1帧,是视频的2帧,是视频的第3帧,为第i个视频帧,是视频的第n帧; 步骤1.2、利用跨平台计算机视觉和机器学习软件库OpenCv中提供的resize函数将的大小改为768*432,格式为.jpg,保存到以视频名命名的文件夹; 步骤2、构建基于Transformer的无参考视频质量评价方法的网络模型,包括两个模块,一个是多层级联的使用移动窗口的分层视觉变换器Swin-Transformer,另一个模块是金字塔特征聚合模块; 所述步骤2具体按照以下步骤实施: 步骤2中搭建的网络模型如下: 搭建多层级联的使用移动窗口的分层视觉变换器Swin-Transformer模块,该模块依次由PatchPartition层和4个Stage即Stage1~Stage4构成,每个Stage中又分别由linearembeding层和SwinTransformerBlock构成,金字塔集合模块由GRU网络以及全连接层FC4和FC5构成; 步骤2.1、读取步骤1.1所得的视频数据文件和对应的标签文件; 步骤2.2、读取步骤2.1的数据以及步骤1.2生成的视频帧图像,得到对应的图像文件名、视频文件名和对应的质量分数; 步骤2.3、以64个帧为一个批次将步骤1.2生成的视频帧图像送入多层级联的使用移动窗口的分层视觉变换器Swin-Transformer模块中 步骤2.4、加载ImageNet在使用移动窗口的分层视觉变换器Swin-Transformer模块的预训练模型; 步骤2.5、将步骤2.2读取到的视频帧图像切割成大小为224*224的图像块送到步骤2搭建的多层级联的使用移动窗口的分层视觉变换器Swin-Transformer模块中的PatchPartition层,得到视频的特征向量;步骤2.6、将步骤2.5得到的特征向量进入linearembeding层并将步骤2.5得到的特征向量的维度设置为96,那么特征向量大小变成56*56*96,然后经过拉直变成3136*96; 步骤2.7、将步骤2.6得到的特征向量送入到SwinTransformerBlock得到视频的特征向量送入stage2模块中,该模块有两部分构成,一部分是基于固定窗口的自注意力计算,另一部分是基于移动窗口的自注意力计算; 步骤2.8、将步骤2.7中经过stage2模块后得到的特征向量经过patchmerging层的操作,将整张特征向量大小从56*56*96变成了28*28*192; 步骤2.9、将步骤2.8得到的特征向量送到SwinTransformerBlock中得到处理后的特征向量; 步骤2.10、因stage2-stage4操作一样,重复步骤2.8和2.9两次后得到视频最终的视频向量; 步骤2.11、将经过每一个stage得到的特征级联得到特征集合;F代表通过4个stage级联得到的特征,l代表stage的第l个stage块,l的取值为0、1、2、3; 步骤2.12、将步骤2.11得到的特征集合在空间上用全局平均池化层GAP和全局最大池化层GMP汇聚,公式如3、4; 3 4 表示特性向量F经过全局平均池化后的特征向量,代表特征向量F经过全局最大池化后的特征向量; 步骤2.13、将步骤2.12得到和拼接,公式如5所示,5 其中,是视频的帧的特征集合,concat表示对来自不同块级的特帧的串联操作,多级特征提取确保包含失真相关信息的低层特征和高层语义,然后将捕获的特征信息送到下一个模块中; 步骤2.14、保存步骤2.13得到的特征向量生成对应的特征文件和质量分数文件; 步骤3、将步骤1获取的视频帧图像送到多层级联的使用移动窗口的分层视觉变换器Swin-Transformer模块中提取视频特征和对应的质量分数文件; 步骤4、将步骤1下载的数据集划分为训练集、测试集和验证集,随之对应的标签文件也按照数据集的划分方式划分为训练集、测试集和验证集; 步骤5、加载步骤3提取到的视频特征文件和质量分数文件送到基于特征融合的金字塔聚合模块中,训练模型,最终得到待评测视频的质量分数。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人西安理工大学,其通讯地址为:710048 陕西省西安市碑林区金花南路5号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励