发布信息

多媒体文件推荐方法、装置、设备及存储介质与流程 专利技术说明

作者:admin      2023-06-29 10:34:47     918



计算;推算;计数设备的制造及其应用技术1.本发明涉及数据处理技术领域,尤其涉及一种多媒体文件推荐方法、装置、设备及存储介质。背景技术:2.目前,在搜索任务中进行多媒体文件检索时最常见的方法是基于多媒体文件周边文本进行的,即根据检索词与多媒体文件周边的描述文本进行匹配,得到与检索词相匹配的多媒体文件。但是这种方式会出现周边文本与多媒体文件的实际内容不一定完全一致,另外,多媒体文件内的细节信息不一定能够覆盖,导致搜索到的多媒体文件不全或者有偏差,多媒体文件的匹配精准度低下。3.上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。技术实现要素:4.本发明的主要目的在于提供了一种多媒体文件推荐方法、装置、设备及存储介质,旨在解决如何提高多媒体文件的匹配精准度的技术问题。5.为实现上述目的,本发明提供了一种多媒体文件推荐方法,所述多媒体文件推荐方法包括以下步骤:6.在检测到当前多媒体文件进行展示时,获取所述当前多媒体文件的文本信息;7.将所述文本信息分别与多个待选取多媒体文件对应的图像特征信息进行比对,以获得视频相似特征信息;8.根据所述视频相似特征信息从多个所述待选取多媒体文件中选取待推荐多媒体文件。9.可选地,所述将所述文本信息分别与多个待选取多媒体文件对应的图像特征信息进行比对,以获得视频相似特征信息的步骤,包括:10.将所述文本信息进行拆分,以获得多个文字信息;11.获取各待选取多媒体文件对应的多个视频帧;12.确定各视频帧对应的图像特征信息;13.将多个所述文字信息分别与多个图像特征信息进行比对,以获得视频相似特征信息。14.可选地,所述将多个所述文字信息分别与多个图像特征信息进行比对,以获得视频相似特征信息的步骤,包括:15.确定各文字信息之间的文本注意力信息;16.根据多个图像特征信息确定各视频帧之间的视频帧注意力信息;17.将多个所述文字信息分别与多个所述图像特征信息进行比对,获得各视频帧与各文字信息之间的跨模态注意力信息;18.根据所述文本注意力信息、所述视频帧注意力信息及所述跨模态注意力信息确定视频相似特征信息。19.可选地,所述根据所述文本注意力信息、所述视频帧注意力信息及所述跨模态注意力信息确定视频相似特征信息的步骤,包括:20.对所述文本注意力信息、所述视频帧注意力信息及所述跨模态注意力信息进行分类,获得文本注意力集和视频注意力集;21.根据所述文本注意力集和所述视频注意力集确定视频相似特征信息。22.可选地,所述根据所述文本注意力集和所述视频注意力集确定视频相似特征信息的步骤,包括:23.根据所述文本注意力集中多个待测试文本注意力信息确定文本特征向量;24.根据所述视频注意力集中多个待测试视频注意力信息确定视频特征向量;25.根据所述文本特征向量和所述视频特征向量确定视频相似特征信息。26.可选地,所述根据所述文本注意力集中多个待测试文本注意力信息确定文本特征向量的步骤,包括:27.根据所述文本注意力集中多个待测试文本注意力信息确定各待测试文本注意力信息对应的文本特征属性值;28.根据多个文本特征属性值生成文本特征向量。29.可选地,所述根据所述视频注意力集中多个待测试视频注意力信息确定视频特征向量的步骤,包括:30.根据所述视频注意力集中多个待测试视频注意力信息确定各待测试视频注意力信息对应的视频特征属性值;31.根据多个视频特征属性值生成视频特征向量。32.可选地,所述根据所述文本特征向量和所述视频特征向量确定视频相似特征信息的步骤,包括:33.根据所述文本特征向量和所述视频特征向量生成相似特征矩阵;34.根据所述相似特征矩阵确定所述文本信息与多个所述图像特征信息之间的视频相似特征信息。35.可选地,所述根据所述视频相似特征信息从多个所述待选取多媒体文件中选取待推荐多媒体文件的步骤,包括:36.根据所述视频相似特征信息确定各图像特征信息对应的相似特征值;37.根据所述相似特征值从多个所述待选取多媒体文件中选取待推荐多媒体文件。38.可选地,所述根据所述相似特征值从多个所述待选取多媒体文件中选取待推荐多媒体文件的步骤,包括:39.对多个所述相似特征值进行排序,获得相似特征排序结果;40.根据所述相似特征排序结果从多个待选取多媒体文件中选取待推荐多媒体文件。41.可选地,所述根据所述相似特征信息从多个所述待选取多媒体文件中选取待推荐多媒体文件的步骤之后,还包括:42.根据所述当前多媒体文件的文本信息和所述待推荐多媒体文件生成多媒体文件推荐报告;43.将所述多媒体文件推荐报告添加至预设多媒体文件推荐库中进行存储。44.此外,为实现上述目的,本发明还提出一种多媒体文件推荐装置,所述多媒体文件推荐装置包括:45.获取模块,用于在检测到当前多媒体文件进行展示时,获取所述当前多媒体文件的文本信息;46.比对模块,用于将所述文本信息分别与多个待选取多媒体文件对应的图像特征信息进行比对,以获得视频相似特征信息;47.推荐模块,用于根据所述视频相似特征信息从多个所述待选取多媒体文件中选取待推荐多媒体文件。48.可选地,所述比对模块,还用于将所述文本信息进行拆分,以获得多个文字信息;49.所述比对模块,还用于获取各待选取多媒体文件对应的多个视频帧;50.所述比对模块,还用于确定各视频帧对应的图像特征信息;51.所述比对模块,还用于将多个所述文字信息分别与多个图像特征信息进行比对,以获得视频相似特征信息。52.可选地,所述比对模块,还用于确定各文字信息之间的文本注意力信息;53.所述比对模块,还用于根据多个图像特征信息确定各视频帧之间的视频帧注意力信息;54.所述比对模块,还用于将多个所述文字信息分别与多个所述图像特征信息进行比对,获得各视频帧与各文字信息之间的跨模态注意力信息;55.所述比对模块,还用于根据所述文本注意力信息、所述视频帧注意力信息及所述跨模态注意力信息确定视频相似特征信息。56.可选地,所述比对模块,还用于对所述文本注意力信息、所述视频帧注意力信息及所述跨模态注意力信息进行分类,获得文本注意力集和视频注意力集;57.所述比对模块,还用于根据所述文本注意力集和所述视频注意力集确定视频相似特征信息。58.可选地,所述比对模块,还用于根据所述文本注意力集中多个待测试文本注意力信息确定文本特征向量;59.所述比对模块,还用于根据所述视频注意力集中多个待测试视频注意力信息确定视频特征向量;60.所述比对模块,还用于根据所述文本特征向量和所述视频特征向量确定视频相似特征信息。61.可选地,所述推荐模块,还用于根据所述视频相似特征信息确定各图像特征信息对应的相似特征值;62.所述推荐模块,还用于根据所述相似特征值从多个所述待选取多媒体文件中选取待推荐多媒体文件。63.可选地,所述多媒体文件推荐装置还包括存储模块;64.所述存储模块,用于根据所述当前多媒体文件的文本信息和所述待推荐多媒体文件生成多媒体文件推荐报告;65.所述存储模块,还用于将所述多媒体文件推荐报告添加至预设多媒体文件推荐库中进行存储。66.此外,为实现上述目的,本发明还提出一种多媒体文件推荐设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的多媒体文件推荐程序,所述多媒体文件推荐程序配置为实现如上文所述的多媒体文件推荐方法的步骤。67.此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有多媒体文件推荐程序,所述多媒体文件推荐程序被处理器执行时实现如上文所述的多媒体文件推荐方法的步骤。68.本发明在检测到当前多媒体文件进行展示时,首先获取当前多媒体文件的文本信息,然后将文本信息分别与多个待选取多媒体文件对应的图像特征信息进行比对,以获得视频相似特征信息,之后根据视频相似特征信息从多个待选取多媒体文件中选取待推荐多媒体文件。相较于现有技术中根据检索词与视频周边的描述文本进行匹配,得到与检索词相匹配的视频,而本发明中需要将当前多媒体文件的文本信息与待选取多媒体文件对应的图像特征信息进行比对,根据比对结果确定待推荐多媒体文件,从而提高了多媒体文件的匹配精准度,进而提高了用户体验。附图说明69.图1是本发明实施例方案涉及的硬件运行环境的多媒体文件推荐设备的结构示意图;70.图2为本发明多媒体文件推荐方法第一实施例的流程示意图;71.图3为本发明多媒体文件推荐方法第一实施例的多媒体文件检索原理图;72.图4为本发明多媒体文件推荐方法第二实施例的流程示意图;73.图5为本发明多媒体文件推荐方法第三实施例的流程示意图;74.图6为本发明多媒体文件推荐装置第一实施例的结构框图。75.本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式76.应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。77.参照图1,图1为本发明实施例方案涉及的硬件运行环境的多媒体文件推荐设备结构示意图。78.如图1所示,该多媒体文件推荐设备可以包括:处理器1001,例如中央处理器(central processing unit,cpu),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(wireless-fidelity,wi-fi)接口)。存储器1005可以是高速的随机存取存储器(random access memory,ram),也可以是稳定的非易失性存储器(non-volatile memory,nvm),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。79.本领域技术人员可以理解,图1中示出的结构并不构成对多媒体文件推荐设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。80.如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、数据存储模块、网络通信模块、用户接口模块以及多媒体文件推荐程序。81.在图1所示的多媒体文件推荐设备中,网络接口1004主要用于与网络服务器进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明多媒体文件推荐设备中的处理器1001、存储器1005可以设置在多媒体文件推荐设备中,所述多媒体文件推荐设备通过处理器1001调用存储器1005中存储的多媒体文件推荐程序,并执行本发明实施例提供的多媒体文件推荐方法。82.本发明实施例提供了一种多媒体文件推荐方法,参照图2,图2为本发明多媒体文件推荐方法第一实施例的流程示意图。83.本实施例中,所述多媒体文件推荐方法包括以下步骤:84.步骤s10:在检测到当前多媒体文件进行展示时,获取所述当前多媒体文件的文本信息。85.易于理解的是,本实施例的执行主体可以是具有数据处理、网络通讯和程序运行等功能的多媒体文件推荐设备,也可以为其他具有相似功能的计算机设备,本实施例并不加以限制。86.需要说明的是,当前多媒体文件为用户需要检索的多媒体文件等,当前多媒体文件的文本信息可以为理解为多媒体文件的标题信息,例如凳子组合方法等。87.在具体实现中,当多媒体文件推荐设备检测到当前多媒体文件进行展示时,可以直接获取当前多媒体文件对应的文本信息即标题信息,之后可以根据当前多媒体文件对应的标题信息进行多媒体文件检索等。88.步骤s20:将所述文本信息分别与多个待选取多媒体文件对应的图像特征信息进行比对,以获得视频相似特征信息。89.还应理解的是,图像特征信息为待选取多媒体文件中各视频帧对应的特征信息等。视频相似特征信息为文本信息与图像特征信息之间的相似特征信息,该相似特征信息可以用特征值的形式来表示等。待选取多媒体文件可以为预设多媒体库中存在的多媒体文件,还可以为当前多媒体文件对应的展示系统中所存在的多媒体文件等。90.在本实施例中,为了能够得到精准的视频相似特征信息,将文本信息分别与多个待选取多媒体文件对应的图像特征信息进行比对,以获得视频相似特征信息的处理方式可以为将文本信息进行拆分,以获得多个文字信息,之后获取各待选取多媒体文件对应的多个视频帧,之后确定各视频帧对应的图像特征信息,并将多个文字信息分别与多个图像特征信息进行比对,以获得视频相似特征信息。91.需要说明的是,可以将文本信息进行单字拆分或多字拆分,以获得文本信息对应的多个文字信息,之后对多个待选取多媒体文件进行帧拆分,以获得各待选取多媒体文件对应的视频帧,最后将多个文字信息分别与多个视频帧对应的图像特征信息进行比对,以获得视频相似特征信息。92.在具体实现中,将多个文字信息分别与多个图像特征信息进行比对,以获得视频相似特征信息的处理方式可以为确定各文字信息之间的文本注意力信息,根据多个图像特征信息确定各视频帧之间的视频帧注意力信息,之后将多个文字信息分别与多个图像特征信息进行比对,获得各视频帧与各文字信息之间的跨模态注意力信息,根据文本注意力信息、视频帧注意力信息及跨模态注意力信息确定视频相似特征信息。93.参考图3,图3为本发明多媒体文件推荐方法第一实施例的多媒体文件检索原理图,图中包括当前多媒体文件的文本信息及待选取多媒体文件的视频帧1、视频帧2、视频帧3及视频帧4,其中e1、e2及e3为文本信息对应的文字信息,f1为视频帧1对应的图像特征信息,f2为视频帧2对应的图像特征信息,f3为视频帧3对应的图像特征信息,f4为视频帧4对应的图像特征信息,之后将多个文字信息和多个图像特征信息利用transformer结构来学习文本内部、视频帧之间以及视频与文本之间的相互关系,得到各模态信息之间的相互attention即文本注意力信息、视频帧注意力信息及跨模态注意力信息,最后根据文本注意力信息、视频帧注意力信息及跨模态注意力信息进行分类,以获得文本注意力集和视频注意力集,其中文本注意力集中存在e1’、e2’及e3’,视频注意力集中存在f1’、f2’、f3’及f4’,并将文本注意力集中的e1’、e2’及e3’和视频注意力集中的f1’、f2’、f3’及f4’进行loss阶段的对比学习,将文本和视觉特征进行一个对齐,从而获得视频相似特征信息等。94.还需要说明的是,为了避免在attention学习的初期引入跨模态信息导致学习的误差,通过实验的形式获得了各个阶段需要的transformer层数,在transformer结构的浅层只进行单模态的信息交互,得到比较稳定的输出后,再进行跨模态cross-attention的学习等。95.步骤s30:根据所述视频相似特征信息从多个所述待选取多媒体文件中选取待推荐多媒体文件。96.进一步地,为了能够获取精准的待推荐多媒体文件,根据视频相似特征信息从多个待选取多媒体文件中选取待推荐多媒体文件的处理方式可以为,根据视频相似特征信息确定各图像特征信息对应的相似特征值,之后根据相似特征值从多个待选取多媒体文件中选取待推荐多媒体文件。97.需要说明的是,相似特征值为当前视频文件的文本信息与各待选取多媒体文件中各视频帧的图像特征信息之间的相似值,相似特征值可以为数字的形式来表示。98.在本实施例中,根据相似特征值从多个待选取多媒体文件中选取待推荐多媒体文件的处理方式可以为对多个相似特征值进行排序,获得相似特征排序结果,之后根据相似特征排序结果从多个待选取多媒体文件中选取待推荐多媒体文件。99.还应理解的是,相似排序结果为相似度从高到低的排序结果,待推荐多媒体文件可以为一个多媒体文件,还可以为多个多媒体文件等,本实施例并不加以限制。100.在具体实现中,还可以根据当前多媒体文件的文本信息和待推荐多媒体文件生成多媒体文件推荐报告,之后将多媒体文件推荐报告添加至预设多媒体文件推荐库中进行存储,便于后续快速根据当前多媒体文件查找对应的待推荐多媒体文件。101.在本实施例中,在检测到当前多媒体文件进行展示时,首先获取当前多媒体文件的文本信息,然后将文本信息分别与多个待选取多媒体文件对应的图像特征信息进行比对,以获得视频相似特征信息,之后根据视频相似特征信息从多个待选取多媒体文件中选取待推荐多媒体文件。相较于现有技术中根据检索词与视频周边的描述文本进行匹配,得到与检索词相匹配的视频,而本实施例中需要将当前多媒体文件的文本信息与待选取多媒体文件对应的图像特征信息进行比对,根据比对结果确定待推荐多媒体文件,从而提高了多媒体文件的匹配精准度,进而提高了用户体验。102.参考图4,图4为本发明多媒体文件推荐方法第二实施例的流程示意图。103.基于上述第一实施例,在本实施例中,所述步骤s20,包括:104.步骤s201:将所述文本信息进行拆分,以获得多个文字信息。105.需要说明的是,文本信息为当前多媒体文件的标题信息。在具体实现中可以将标题信息进行单字拆分,还可以进行多字拆分等,以获得文本信息对应的多个文字信息。106.步骤s202:获取各待选取多媒体文件对应的多个视频帧。107.应理解的是,待选取多媒体文件可以为待选取视频,视频由多帧图像拼合而成,在本实施例中可以将待选取多媒体文件进行拆帧,以获得待选取多媒体文件对应的多个视频帧。108.还需要说明的是,对待选取多媒体文件进行拆帧的处理方式为可以对待选取多媒体文件进行单帧拆分,还可以对待选取多媒体文件进行多帧拆分等。109.步骤s203:确定各视频帧对应的图像特征信息。110.在具体实现中,可以将视频帧输入至预设特征提取模型中,以获得各视频帧对应的图像特征信息,该图像特征信息包括对象位置信息,对象名称及对象颜色等。111.步骤s204:将多个所述文字信息分别与多个图像特征信息进行比对,以获得视频相似特征信息。112.进一步地,为了能够精准获取视频相似特征信息,将多个文字信息分别与多个图像特征信息进行比对,以获得视频相似特征信息的处理方式可以为确定各文字信息之间的文本注意力信息,根据多个图像特征信息确定各视频帧之间的视频帧注意力信息,之后将多个文字信息分别与多个图像特征信息进行比对,获得各视频帧与各文字信息之间的跨模态注意力信息,根据文本注意力信息、视频帧注意力信息及跨模态注意力信息确定视频相似特征信息。113.在具体实现中,可以将多个文字信息和多个图像特征信息利用transformer结构来学习文本内部、视频帧之间以及视频与文本之间的相互关系,得到各模态信息之间的相互attention即文本注意力信息、视频帧注意力信息及跨模态注意力信息,最后根据文本注意力信息、视频帧注意力信息确定当前多媒体文件的文本信息与各待选取多媒体文件中各视频帧的图像特征信息之间的视频相似特征信息等。114.在本实施例中,首先将文本信息进行拆分,以获得多个文字信息,并获取各待选取多媒体文件对应的多个视频帧,确定各视频帧对应的图像特征信息,之后将多个文字信息分别与多个图像特征信息进行比对,以获得视频相似特征信息,相较于现有技术中根据检索词与视频周边的描述文本进行匹配,导致搜索到的多媒体文件不全或者有偏差,而本实施例中可以根据文字信息与图像特征信息进行比对,从而提高了检索多媒体文件的精度。115.参考图5,图5为本发明多媒体文件推荐方法第三实施例的流程示意图。116.基于上述第二实施例,在本实施例中,所述步骤s204,包括:117.步骤s2041:确定各文字信息之间的文本注意力信息。118.在本实施例中,可以将多个文字信息输入至transformer结构,以使transformer结构对多个文字信息进行学习,以获得各文字信息之间的文本注意力信息即文字信息之间的相互attention等。119.步骤s2042:根据多个图像特征信息确定各视频帧之间的视频帧注意力信息。120.还需要说明的是,利用transformer结构学习各图像特征信息,之后获取各视频帧之间的相互attention即视频帧注意力信息等。121.步骤s2043:将多个所述文字信息分别与多个所述图像特征信息进行比对,获得各视频帧与各文字信息之间的跨模态注意力信息。122.在具体实现中,为了提高视频文件的检索精度,在利用transformer结构学习各文字信息之间的相互attention和各图像特征信息之间的相互attention后,还需要学习多个文字信息与多个图像特征信息之间的相互attention即跨模态注意力信息等。123.步骤s2044:根据所述文本注意力信息、所述视频帧注意力信息及所述跨模态注意力信息确定视频相似特征信息。124.进一步地,为了能够快速获取视频相似特征信息,根据文本注意力信息、视频帧注意力信息及跨模态注意力信息确定视频相似特征信息的处理方式可以为对文本注意力信息、视频中注意力信息及跨模态注意力信息进行分类,获得文本注意力集和视频注意力集,并根据文本注意力集和视频注意力集确定视频相似特征信息。125.在具体实现中,根据文本注意力集和视频注意力集确定视频相似特征信息的步骤可以为根据注意力集中多个待测试文件注意力信息确定文本特征向量,根据视频注意力集中多个待测试视频注意力信息确定视频特征向量,之后根据文本特征向量和视频特征向量确定视频相似特征信息。126.在本实施例中可以根据文本注意力集中多个待测试文本注意力信息确定各待测试文本注意力信息对应的文本特征属性值,之后根据多个文本特征属性值生成文本特征向量。还可以根据视频注意力集中多个待测试视频注意力信息确定各待测试视频注意力信息对应的视频特征属性值,之后根据多个说特征属性值生成视频特征向量。127.还需要说明的是,可以获取各文字信息对应的权重值,之后利用权重值和对应的文本特征属性值确定多个文本平均特征值,根据多个文本平均特征值生成文本特征向量。还可以获取各视频帧对应的权重值,之后利用权重值和对应的视频特征属性值确定多个图像平均特征值,根据多个图像平均特征值生成视频特征向量等。128.应理解的是,根据文本特征向量和视频特征向量确定视频相似特征信息的处理方式可以为根据文本特征向量和视频特征向量生成相似特征矩阵,之后根据相似特征矩阵确定文本信息与图像特征信息之间的视频相似特征信息。129.需要说明的是,相似特征矩阵的对角线为相似度较高的图像特征信息,之后可在相似特征矩阵中选取对角线对应的图像特征信息,并获取对角线对应的图像特征信息的视频相似特征信息。130.在本实施例中,首先确定各文字信息之间的文本注意力信息,并根据多个图像特征信息确定各视频帧之间的视频帧注意力信息,之后将多个文字信息分别与多个图像特征信息进行比对,获得各视频帧与各文字信息之间的跨模态注意力信息,最后根据文本注意力信息、视频帧注意力信息及跨模态注意力信息确定视频相似特征信息,相较于现有技术中直接根据检索词与视频周边的描述文本进行匹配,以获得视频对应的相似特征信息,而本实施例中需要根据各文字信息之间的文本注意力信息、各视频帧之间的视频帧注意力信息及各视频帧与各文字信息之间的跨模态注意力信息确定视频相似特征信息,从而提高了多媒体文件检索的准确率。131.参照图6,图6为本发明多媒体文件推荐装置第一实施例的结构框图。132.如图6所示,本发明实施例提出的多媒体文件推荐装置包括:133.获取模块6001,用于在检测到当前多媒体文件进行展示时,获取所述当前多媒体文件的文本信息。134.需要说明的是,当前多媒体文件为用户需要检索的多媒体文件等,当前多媒体文件的文本信息可以为理解为多媒体文件的标题信息,例如凳子组合方法等。135.在具体实现中,当多媒体文件推荐设备检测到当前多媒体文件进行展示时,可以直接获取当前多媒体文件对应的文本信息即标题信息,之后可以根据当前多媒体文件对应的标题信息进行多媒体文件检索等。136.比对模块6002,用于将所述文本信息分别与多个待选取多媒体文件对应的图像特征信息进行比对,以获得视频相似特征信息。137.还应理解的是,图像特征信息为待选取多媒体文件中各视频帧对应的特征信息等。视频相似特征信息为文本信息与图像特征信息之间的相似特征信息,该相似特征信息可以用特征值的形式来表示等。待选取多媒体文件可以为预设多媒体库中存在的多媒体文件,还可以为当前多媒体文件对应的展示系统中所存在的多媒体文件等。138.在本实施例中,为了能够得到精准的视频相似特征信息,将文本信息分别与多个待选取多媒体文件对应的图像特征信息进行比对,以获得视频相似特征信息的处理方式可以为将文本信息进行拆分,以获得多个文字信息,之后获取各待选取多媒体文件对应的多个视频帧,之后确定各视频帧对应的图像特征信息,并将多个文字信息分别与多个图像特征信息进行比对,以获得视频相似特征信息。139.需要说明的是,可以将文本信息进行单字拆分或多字拆分,以获得文本信息对应的多个文字信息,之后对多个待选取多媒体文件进行帧拆分,以获得各待选取多媒体文件对应的视频帧,最后将多个文字信息分别与多个视频帧对应的图像特征信息进行比对,以获得视频相似特征信息。140.在具体实现中,将多个文字信息分别与多个图像特征信息进行比对,以获得视频相似特征信息的处理方式可以为确定各文字信息之间的文本注意力信息,根据多个图像特征信息确定各视频帧之间的视频帧注意力信息,之后将多个文字信息分别与多个图像特征信息进行比对,获得各视频帧与各文字信息之间的跨模态注意力信息,根据文本注意力信息、视频帧注意力信息及跨模态注意力信息确定视频相似特征信息。141.参考图3,图3为本发明多媒体文件推荐方法第一实施例的多媒体文件检索原理图,图中包括当前多媒体文件的文本信息及待选取多媒体文件的视频帧1、视频帧2、视频帧3及视频帧4,其中e1、e2及e3为文本信息对应的文字信息,f1为视频帧1对应的图像特征信息,f2为视频帧2对应的图像特征信息,f3为视频帧3对应的图像特征信息,f4为视频帧4对应的图像特征信息,之后将多个文字信息和多个图像特征信息利用transformer结构来学习文本内部、视频帧之间以及视频与文本之间的相互关系,得到各模态信息之间的相互attention即文本注意力信息、视频帧注意力信息及跨模态注意力信息,最后根据文本注意力信息、视频帧注意力信息及跨模态注意力信息进行分类,以获得文本注意力集和视频注意力集,其中文本注意力集中存在e1’、e2’及e3’,视频注意力集中存在f1’、f2’、f3’及f4’,并将文本注意力集中的e1’、e2’及e3’和视频注意力集中的f1’、f2’、f3’及f4’进行loss阶段的对比学习,将文本和视觉特征进行一个对齐,从而获得视频相似特征信息等。142.还需要说明的是,为了避免在attention学习的初期引入跨模态信息导致学习的误差,通过实验的形式获得了各个阶段需要的transformer层数,在transformer结构的浅层只进行单模态的信息交互,得到比较稳定的输出后,再进行跨模态cross-attention的学习等。143.推荐模块6003,用于根据所述视频相似特征信息从多个所述待选取多媒体文件中选取待推荐多媒体文件。144.进一步地,为了能够获取精准的待推荐多媒体文件,根据视频相似特征信息从多个待选取多媒体文件中选取待推荐多媒体文件的处理方式可以为,根据视频相似特征信息确定各图像特征信息对应的相似特征值,之后根据相似特征值从多个待选取多媒体文件中选取待推荐多媒体文件。145.需要说明的是,相似特征值为当前视频文件的文本信息与各待选取多媒体文件中各视频帧的图像特征信息之间的相似值,相似特征值可以为数字的形式来表示。146.在本实施例中,根据相似特征值从多个待选取多媒体文件中选取待推荐多媒体文件的处理方式可以为对多个相似特征值进行排序,获得相似特征排序结果,之后根据相似特征排序结果从多个待选取多媒体文件中选取待推荐多媒体文件。147.还应理解的是,相似排序结果为相似度从高到低的排序结果,待推荐多媒体文件可以为一个多媒体文件,还可以为多个多媒体文件等,本实施例并不加以限制。148.在具体实现中,还可以根据当前多媒体文件的文本信息和待推荐多媒体文件生成多媒体文件推荐报告,之后将多媒体文件推荐报告添加至预设多媒体文件推荐库中进行存储,便于后续快速根据当前多媒体文件查找对应的待推荐多媒体文件。149.在本实施例中,在检测到当前多媒体文件进行展示时,首先获取当前多媒体文件的文本信息,然后将文本信息分别与多个待选取多媒体文件对应的图像特征信息进行比对,以获得视频相似特征信息,之后根据视频相似特征信息从多个待选取多媒体文件中选取待推荐多媒体文件。相较于现有技术中根据检索词与视频周边的描述文本进行匹配,得到与检索词相匹配的视频,而本实施例中需要将当前多媒体文件的文本信息与待选取多媒体文件对应的图像特征信息进行比对,根据比对结果确定待推荐多媒体文件,从而提高了多媒体文件的匹配精准度,进而提高了用户体验。150.进一步地,所述比对模块6002,还用于将所述文本信息进行拆分,以获得多个文字信息;151.所述比对模块6002,还用于获取各待选取多媒体文件对应的多个视频帧;152.所述比对模块6002,还用于确定各视频帧对应的图像特征信息;153.所述比对模块6002,还用于将多个所述文字信息分别与多个图像特征信息进行比对,以获得视频相似特征信息。154.进一步地,所述比对模块6002,还用于确定各文字信息之间的文本注意力信息;155.所述比对模块6002,还用于根据多个所述图像特征信息确定各视频帧之间的视频帧注意力信息;156.所述比对模块6002,还用于将多个所述文字信息分别与多个图像特征信息进行比对,获得各视频帧与各文字信息之间的跨模态注意力信息;157.所述比对模块6002,还用于根据所述文本注意力信息、所述视频帧注意力信息及所述跨模态注意力信息确定视频相似特征信息。158.进一步地,所述比对模块6002,还用于对所述文本注意力信息、所述视频帧注意力信息及所述跨模态注意力信息进行分类,获得文本注意力集和视频注意力集;159.所述比对模块6002,还用于根据所述文本注意力集和所述视频注意力集确定视频相似特征信息。160.进一步地,所述比对模块6002,还用于根据所述文本注意力集中多个待测试文本注意力信息确定文本特征向量;161.所述比对模块6002,还用于根据所述视频注意力集中多个待测试视频注意力信息确定视频特征向量;162.所述比对模块6002,还用于根据所述文本特征向量和所述视频特征向量确定视频相似特征信息。163.进一步地,所述推荐模块6003,还用于根据所述视频相似特征信息确定各图像特征信息对应的相似特征值;164.所述推荐模块6003,还用于根据所述相似特征值从多个所述待选取多媒体文件中选取待推荐多媒体文件。165.进一步地,所述多媒体文件推荐装置还包括存储模块;166.所述存储模块,用于根据所述当前多媒体文件的文本信息和所述待推荐多媒体文件生成多媒体文件推荐报告;167.所述存储模块,还用于将所述多媒体文件推荐报告添加至预设多媒体文件推荐库中进行存储。168.本发明多媒体文件推荐装置的其他实施例或具体实现方式可参照上述各方法实施例,此处不再赘述。169.需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。170.上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。171.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器/随机存取存储器、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。172.以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。173.本发明还公开了a1、一种多媒体文件推荐方法,所述多媒体文件推荐方法包括以下步骤:174.在检测到当前多媒体文件进行展示时,获取所述当前多媒体文件的文本信息;175.将所述文本信息分别与多个待选取多媒体文件对应的图像特征信息进行比对,以获得视频相似特征信息;176.根据所述视频相似特征信息从多个所述待选取多媒体文件中选取待推荐多媒体文件。177.a2、如a1所述的方法,所述将所述文本信息分别与多个待选取多媒体文件对应的图像特征信息进行比对,以获得视频相似特征信息的步骤,包括:178.将所述文本信息进行拆分,以获得多个文字信息;179.获取各待选取多媒体文件对应的多个视频帧;180.确定各视频帧对应的图像特征信息;181.将多个所述文字信息分别与多个图像特征信息进行比对,以获得视频相似特征信息。182.a3、如a2所述的方法,所述将多个所述文字信息分别与多个图像特征信息进行比对,以获得视频相似特征信息的步骤,包括:183.确定各文字信息之间的文本注意力信息;184.根据多个图像特征信息确定各视频帧之间的视频帧注意力信息;185.将多个所述文字信息分别与多个所述图像特征信息进行比对,获得各视频帧与各文字信息之间的跨模态注意力信息;186.根据所述文本注意力信息、所述视频帧注意力信息及所述跨模态注意力信息确定视频相似特征信息。187.a4、如a3所述的方法,所述根据所述文本注意力信息、所述视频帧注意力信息及所述跨模态注意力信息确定视频相似特征信息的步骤,包括:188.对所述文本注意力信息、所述视频帧注意力信息及所述跨模态注意力信息进行分类,获得文本注意力集和视频注意力集;189.根据所述文本注意力集和所述视频注意力集确定视频相似特征信息。190.a5、如a4所述的方法,所述根据所述文本注意力集和所述视频注意力集确定视频相似特征信息的步骤,包括:191.根据所述文本注意力集中多个待测试文本注意力信息确定文本特征向量;192.根据所述视频注意力集中多个待测试视频注意力信息确定视频特征向量;193.根据所述文本特征向量和所述视频特征向量确定视频相似特征信息。194.a6、如a5所述的方法,所述根据所述文本注意力集中多个待测试文本注意力信息确定文本特征向量的步骤,包括:195.根据所述文本注意力集中多个待测试文本注意力信息确定各待测试文本注意力信息对应的文本特征属性值;196.根据多个文本特征属性值生成文本特征向量。197.a7、如a5所述的方法,所述根据所述视频注意力集中多个待测试视频注意力信息确定视频特征向量的步骤,包括:198.根据所述视频注意力集中多个待测试视频注意力信息确定各待测试视频注意力信息对应的视频特征属性值;199.根据多个视频特征属性值生成视频特征向量。200.a8、如a5所述的方法,所述根据所述文本特征向量和所述视频特征向量确定视频相似特征信息的步骤,包括:201.根据所述文本特征向量和所述视频特征向量生成相似特征矩阵;202.根据所述相似特征矩阵确定所述文本信息与多个所述图像特征信息之间的视频相似特征信息。203.a9、如a1-a8任一项所述的方法,所述根据所述视频相似特征信息从多个所述待选取多媒体文件中选取待推荐多媒体文件的步骤,包括:204.根据所述视频相似特征信息确定各图像特征信息对应的相似特征值;205.根据所述相似特征值从多个所述待选取多媒体文件中选取待推荐多媒体文件。206.a10、如a9所述的方法,所述根据所述相似特征值从多个所述待选取多媒体文件中选取待推荐多媒体文件的步骤,包括:207.对多个所述相似特征值进行排序,获得相似特征排序结果;208.根据所述相似特征排序结果从多个待选取多媒体文件中选取待推荐多媒体文件。209.a11、如a1-a8任一项所述的方法,所述根据所述相似特征信息从多个所述待选取多媒体文件中选取待推荐多媒体文件的步骤之后,还包括:210.根据所述当前多媒体文件的文本信息和所述待推荐多媒体文件生成多媒体文件推荐报告;211.将所述多媒体文件推荐报告添加至预设多媒体文件推荐库中进行存储。212.本发明还公开了b12、一种多媒体文件推荐装置,所述多媒体文件推荐装置包括:213.获取模块,用于在检测到当前多媒体文件进行展示时,获取所述当前多媒体文件的文本信息;214.比对模块,用于将所述文本信息分别与多个待选取多媒体文件对应的图像特征信息进行比对,以获得视频相似特征信息;215.推荐模块,用于根据所述视频相似特征信息从多个所述待选取多媒体文件中选取待推荐多媒体文件。216.b13、如b12所述的装置,所述比对模块,还用于将所述文本信息进行拆分,以获得多个文字信息;217.所述比对模块,还用于获取各待选取多媒体文件对应的多个视频帧;218.所述比对模块,还用于确定各视频帧对应的图像特征信息;219.所述比对模块,还用于将多个所述文字信息分别与多个图像特征信息进行比对,以获得视频相似特征信息。220.b14、如b13所述的方法,所述比对模块,还用于确定各文字信息之间的文本注意力信息;221.所述比对模块,还用于根据多个图像特征信息确定各视频帧之间的视频帧注意力信息;222.所述比对模块,还用于将多个所述文字信息分别与多个所述图像特征信息进行比对,获得各视频帧与各文字信息之间的跨模态注意力信息;223.所述比对模块,还用于根据所述文本注意力信息、所述视频帧注意力信息及所述跨模态注意力信息确定视频相似特征信息。224.b15、如b14所述的装置,所述比对模块,还用于对所述文本注意力信息、所述视频帧注意力信息及所述跨模态注意力信息进行分类,获得文本注意力集和视频注意力集;225.所述比对模块,还用于根据所述文本注意力集和所述视频注意力集确定视频相似特征信息。226.b16、如b15所述的装置,所述比对模块,还用于根据所述文本注意力集中多个待测试文本注意力信息确定文本特征向量;227.所述比对模块,还用于根据所述视频注意力集中多个待测试视频注意力信息确定视频特征向量;228.所述比对模块,还用于根据所述文本特征向量和所述视频特征向量确定视频相似特征信息。229.b17、如b12-b16任一项所述的装置,所述推荐模块,还用于根据所述视频相似特征信息确定各图像特征信息对应的相似特征值;230.所述推荐模块,还用于根据所述相似特征值从多个所述待选取多媒体文件中选取待推荐多媒体文件。231.b18、如b12-b16任一项所述的装置,所述多媒体文件推荐装置还包括存储模块;232.所述存储模块,用于根据所述当前多媒体文件的文本信息和所述待推荐多媒体文件生成多媒体文件推荐报告;233.所述存储模块,还用于将所述多媒体文件推荐报告添加至预设多媒体文件推荐库中进行存储。234.本发明还公开了c19、一种多媒体文件推荐设备,所述多媒体文件推荐设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的多媒体文件推荐程序,所述多媒体文件推荐程序配置有实现如上文所述的多媒体文件推荐方法的步骤。235.本发明还公开了d20、一种存储介质,所述存储介质上存储有多媒体文件推荐程序,所述多媒体文件推荐程序被处理器执行时实现如上文所述的多媒体文件推荐方法的步骤。









图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!




内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!




免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!

相关内容 查看全部