发布信息

一种基于NLP的流媒体内容分析方法及系统与流程 专利技术说明

作者:admin      2023-06-29 08:06:25     711



电子通信装置的制造及其应用技术一种基于nlp的流媒体内容分析方法及系统技术领域1.本发明涉及信息处理技术领域,具体是涉及一种基于nlp的流媒体内容分析方法及系统。背景技术:2.新品发布或者上市时,了解流媒体内容导向对于新品的战略布局调整至关重要,随着短视频的兴起,需要对流媒体视频的内容进行准确的分析,使得厂商能够及时知道新品的舆情,目前难以自动对大量的流媒体视频内容进行较为准确的舆情分析。因此,需要提供一种基于nlp的流媒体内容分析方法及系统,旨在解决上述问题。技术实现要素:3.针对现有技术存在的不足,本发明的目的在于提供一种基于nlp的流媒体内容分析方法及系统,以解决上述背景技术中存在的问题。4.本发明是这样实现的,一种基于nlp的流媒体内容分析方法,所述方法包括以下步骤:接收用户输入的检索关键词,根据检索关键词确定相匹配的流媒体视频;根据热度值对流媒体视频进行筛选,对筛选后的流媒体视频进行处理,确定每个流媒体视频对应的文本信息;接收用户输入的功能关键词,将功能关键词和检索关键词归纳为名词,基于nlp提取每个文本信息中的形容词和名词,为每个形容词绑定一个名词,确定所述文本信息的内容评价信息;对所有的内容评价信息进行分析整合得到流媒体评价信息,将流媒体评价信息中功能关键词的评价内容进行特殊标记。5.作为本发明进一步的方案:所述对筛选后的流媒体视频进行处理,确定每个流媒体视频对应的文本信息的步骤,具体包括:判定筛选后的流媒体视频是否存在字幕信息;当存在字幕信息时,对流媒体视频中的字幕信息进行文字识别得到文本信息;当不存在字幕信息时,获取流媒体视频的音频信息,对所述音频信息进行语音转文字得到文本信息。6.作为本发明进一步的方案:所述基于nlp提取每个文本信息中的形容词和名词的步骤,具体包括:确定文本信息对应的流媒体视频作者的影响度;当影响度小于或者等于设定影响值时,使用分词工具提取文本信息中的形容词和名词,并对提取的形容词和名词进行位置标记;当影响度大于设定影响值时,接收训练语料信息,基于cnn-lstm模型对训练语料信息进行特征学习得到专属神经网络模型,通过专属神经网络模型对文本信息进行处理得到形容词和名词,对得到的形容词和名词进行位置标记。7.作为本发明进一步的方案:所述为每个形容词绑定一个名词,确定所述文本信息的内容评价信息的步骤,具体包括:根据位置标记为每个形容词绑定一个名词,确定每个形容词的词性,所述词性包括褒义词、贬义词以及中性词;根据名词对所有的形容词进行分类,得到若干个类别,每个类别所对应的名词是相同的;确定所述文本信息的文本评价值,文本评价值=a×褒义词的个数+b×贬义词的个数+c×中性词的个数,所述类别和文本评价值构成内容评价信息。8.作为本发明进一步的方案:所述对所有的内容评价信息进行分析整合得到流媒体评价信息的步骤,具体包括:对所有内容评价信息中的类别进行整合,对相同名词对应的类别进行合并;调取每个文本评价值对应的流媒体视频作者的影响度;确定总体评价值,总体评价值=∑文本评价值×影响度,整合后的类别和总体评价值构成流媒体评价信息。9.本发明的另一目的在于提供一种基于nlp的流媒体内容分析系统,所述系统包括:流媒体视频确定模块,用于接收用户输入的检索关键词,根据检索关键词确定相匹配的流媒体视频;文本信息获取模块,用于根据热度值对流媒体视频进行筛选,对筛选后的流媒体视频进行处理,确定每个流媒体视频对应的文本信息;功能关键词输入模块,用于接收用户输入的功能关键词,将功能关键词和检索关键词归纳为名词,形容词名词确定模块,基于nlp提取每个文本信息中的形容词和名词,为每个形容词绑定一个名词,确定所述文本信息的内容评价信息;流媒体评价信息模块,用于对所有的内容评价信息进行分析整合得到流媒体评价信息,将流媒体评价信息中功能关键词的评价内容进行特殊标记。10.作为本发明进一步的方案:所述文本信息获取模块包括:字幕信息判定单元,用于判定筛选后的流媒体视频是否存在字幕信息;第一文本信息单元,当存在字幕信息时,用于对流媒体视频中的字幕信息进行文字识别得到文本信息;第二文本信息单元,当不存在字幕信息时,用于获取流媒体视频的音频信息,对所述音频信息进行语音转文字得到文本信息。11.作为本发明进一步的方案:所述形容词名词确定模块包括:影响度确定单元,用于确定文本信息对应的流媒体视频作者的影响度;第一形容词名词单元,当影响度小于或者等于设定影响值时,使用分词工具提取文本信息中的形容词和名词,并对提取的形容词和名词进行位置标记;第二形容词名词单元,当影响度大于设定影响值时,用于接收训练语料信息,基于cnn-lstm模型对训练语料信息进行特征学习得到专属神经网络模型,通过专属神经网络模型对文本信息进行处理得到形容词和名词,对得到的形容词和名词进行位置标记。12.作为本发明进一步的方案:所述形容词名词确定模块还包括:形容词名词绑定单元,用于根据位置标记为每个形容词绑定一个名词,确定每个形容词的词性,所述词性包括褒义词、贬义词以及中性词;形容词分类单元,用于根据名词对所有的形容词进行分类,得到若干个类别,每个类别所对应的名词是相同的;文本评价值单元,用于确定所述文本信息的文本评价值,文本评价值=a×褒义词的个数+b×贬义词的个数+c×中性词的个数,所述类别和文本评价值构成内容评价信息。13.作为本发明进一步的方案:所述流媒体评价信息模块包括:类别整合单元,用于对所有内容评价信息中的类别进行整合,对相同名词对应的类别进行合并;影响度调取单元,用于调取每个文本评价值对应的流媒体视频作者的影响度;总体评价值单元,用于确定总体评价值,总体评价值=∑文本评价值×影响度,整合后的类别和总体评价值构成流媒体评价信息。14.与现有技术相比,本发明的有益效果是:本发明通过对筛选后的流媒体视频进行处理,确定每个流媒体视频对应的文本信息;并将用户输入的功能关键词和检索关键词归纳为名词,基于nlp提取每个文本信息中的形容词和名词,为每个形容词绑定一个名词,确定所述文本信息的内容评价信息;对所有的内容评价信息进行分析整合得到流媒体评价信息。如此,能够自动分析得到流媒体评价信息,流媒体评价信息能够准确反映整体的舆论导向。附图说明15.图1为一种基于nlp的流媒体内容分析方法的流程图。16.图2为一种基于nlp的流媒体内容分析方法中确定流媒体视频的文本信息的流程图。17.图3为一种基于nlp的流媒体内容分析方法中提取每个文本信息中的形容词和名词的流程图。18.图4为一种基于nlp的流媒体内容分析方法中为每个形容词绑定一个名词的流程图。19.图5为一种基于nlp的流媒体内容分析方法中得到流媒体评价信息的流程图。20.图6为一种基于nlp的流媒体内容分析系统的结构示意图。21.图7为一种基于nlp的流媒体内容分析系统中文本信息获取模块的结构示意图。22.图8为一种基于nlp的流媒体内容分析系统中形容词名词确定模块的结构示意图。23.图9为一种基于nlp的流媒体内容分析系统中流媒体评价信息模块的结构示意图。具体实施方式24.为了使本发明的目的、技术方案及优点更加清晰,以下结合附图及具体实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。25.以下结合具体实施例对本发明的具体实现进行详细描述。26.如图1所示,本发明实施例提供了一种基于nlp的流媒体内容分析方法,所述方法包括以下步骤:s100,接收用户输入的检索关键词,根据检索关键词确定相匹配的流媒体视频;s200,根据热度值对流媒体视频进行筛选,对筛选后的流媒体视频进行处理,确定每个流媒体视频对应的文本信息;s300,接收用户输入的功能关键词,将功能关键词和检索关键词归纳为名词,s400,基于nlp提取每个文本信息中的形容词和名词,为每个形容词绑定一个名词,确定所述文本信息的内容评价信息;s500,对所有的内容评价信息进行分析整合得到流媒体评价信息,将流媒体评价信息中功能关键词的评价内容进行特殊标记。27.本发明实施例中,当厂商需要知道新品的舆情时,输入检索关键词,检索关键词可以是新品名称,流媒体视频平台会根据检索关键词确定若干个相匹配的流媒体视频,接着本发明实施例会根据热度值对流媒体视频进行筛选,所述热度值与流媒体视频的点赞量、评论量以及转发量相关,保留热度值较高流媒体视频,对筛选后的流媒体视频进行处理,确定每个流媒体视频对应的文本信息;然后用户需要输入的功能关键词,功能关键词就是新品中新推的功能,是厂商比较在意的产品亮点,本发明实施例会将所述功能关键词和检索关键词都归纳为名词,接着本发明实施例会基于自然语言处理技术(nlp)提取每个文本信息中的形容词和名词,为每个形容词绑定一个名词,表明所述形容词是对该名词进行描述的,就得到了所述文本信息的内容评价信息,最后会对所有的内容评价信息进行分析整合得到流媒体评价信息,流媒体评价信息能够反映整体的舆论导向,并将流媒体评价信息中功能关键词的评价内容进行特殊标记,例如加粗,方便厂商工作人员一眼看出新功能的市场效果,容易理解,功能关键词的评价内容就是功能关键词这个名词对应的形容词。28.如图2所示,作为本发明一个优选的实施例,所述对筛选后的流媒体视频进行处理,确定每个流媒体视频对应的文本信息的步骤,具体包括:s201,判定筛选后的流媒体视频是否存在字幕信息;s202,当存在字幕信息时,对流媒体视频中的字幕信息进行文字识别得到文本信息;s203,当不存在字幕信息时,获取流媒体视频的音频信息,对所述音频信息进行语音转文字得到文本信息。29.本发明实施例中,为了得到文本信息,需要判定筛选后的流媒体视频中是否存在字幕信息,如果存在,直接对流媒体视频中的字幕信息进行文字识别就可以得到文本信息了;如果不存在字幕信息,还需要调取流媒体视频的音频信息,并对音频信息进行降噪处理,然后进行语音转文字得到文本信息。30.如图3所示,作为本发明一个优选的实施例,所述基于nlp提取每个文本信息中的形容词和名词的步骤,具体包括:s401,确定文本信息对应的流媒体视频作者的影响度;s402,当影响度小于或者等于设定影响值时,使用分词工具提取文本信息中的形容词和名词,并对提取的形容词和名词进行位置标记;s403,当影响度大于设定影响值时,接收训练语料信息,基于cnn-lstm模型对训练语料信息进行特征学习得到专属神经网络模型,通过专属神经网络模型对文本信息进行处理得到形容词和名词,对得到的形容词和名词进行位置标记。31.本发明实施例中,需要确定每个文本信息对应的流媒体视频作者的影响度,影响度根据视频作者的点赞量和粉丝量决定,影响度=m×点赞量和+n×粉丝量,m和n为定值,当影响度小于或者等于设定影响值时,直接使用分词工具提取文本信息中的形容词和名词即可,并对提取的形容词和名词进行位置标记,位置标记用于表明在文本信息中的位置,分词工具可以使用jieba、hanlp、ansj或者standfore。当影响度大于设定影响值时,需要构建该流媒体视频作者的专属神经网络模型,如此分析的会更加准确,另外,每个领域影响度较大的视频作者是有限的,构建有限的专属神经网络模型即可,且第一次构建完成后能够一直使用,构建时,需要用户上传训练语料信息,训练语料信息是根据视频作者以往的视频得到的,然后基于cnn-lstm模型对训练语料信息进行特征学习得到专属神经网络模型,如此,专属神经网络模型能够对该视频作者的视频内容进行更好的语义分析。32.如图4所示,作为本发明一个优选的实施例,所述为每个形容词绑定一个名词,确定所述文本信息的内容评价信息的步骤,具体包括:s404,根据位置标记为每个形容词绑定一个名词,确定每个形容词的词性,所述词性包括褒义词、贬义词以及中性词;s405,根据名词对所有的形容词进行分类,得到若干个类别,每个类别所对应的名词是相同的;s406,确定所述文本信息的文本评价值,文本评价值=a×褒义词的个数+b×贬义词的个数+c×中性词的个数,所述类别和文本评价值构成内容评价信息。33.本发明实施例中,需要根据位置标记为每个形容词绑定一个名词,绑定的名词是与所述形容词在同一句话中位置最近的名词,并确定每个形容词的词性,可以将形容词输入至电子词典中得到词性;接着根据名词对所有的形容词进行分类,每个类别所对应的名词是相同的,可以制成表格,第一列为名词,第二列为名词对应的形容词,最后还需要确定所述文本信息的文本评价值,文本评价值=a×褒义词的个数+b×贬义词的个数+c×中性词的个数,a、b和c均为定值。34.如图5所示,作为本发明一个优选的实施例,所述对所有的内容评价信息进行分析整合得到流媒体评价信息的步骤,具体包括:s501,对所有内容评价信息中的类别进行整合,对相同名词对应的类别进行合并;s502,调取每个文本评价值对应的流媒体视频作者的影响度;s503,确定总体评价值,总体评价值=∑文本评价值×影响度,整合后的类别和总体评价值构成流媒体评价信息。35.本发明实施例中,会对筛选后的流媒体视频对应的内容评价信息进行整合,并确定总体评价值,总体评价值等于所有的文本评价值×对应的影响度后进行累加,总体评价值反映了整体舆情的好坏。36.如图6所示,本发明实施例还提供了一种基于nlp的流媒体内容分析系统,所述系统包括:流媒体视频确定模块100,用于接收用户输入的检索关键词,根据检索关键词确定相匹配的流媒体视频;文本信息获取模块200,用于根据热度值对流媒体视频进行筛选,对筛选后的流媒体视频进行处理,确定每个流媒体视频对应的文本信息;功能关键词输入模块300,用于接收用户输入的功能关键词,将功能关键词和检索关键词归纳为名词,形容词名词确定模块400,基于nlp提取每个文本信息中的形容词和名词,为每个形容词绑定一个名词,确定所述文本信息的内容评价信息;流媒体评价信息模块500,用于对所有的内容评价信息进行分析整合得到流媒体评价信息,将流媒体评价信息中功能关键词的评价内容进行特殊标记。37.本发明实施例中,当厂商需要知道新品的舆情时,输入检索关键词,检索关键词可以是新品名称,流媒体视频平台会根据检索关键词确定若干个相匹配的流媒体视频,接着本发明实施例会根据热度值对流媒体视频进行筛选,所述热度值与流媒体视频的点赞量、评论量以及转发量相关,保留热度值较高流媒体视频,对筛选后的流媒体视频进行处理,确定每个流媒体视频对应的文本信息;然后用户需要输入的功能关键词,功能关键词就是新品中新推的功能,是厂商比较在意的产品亮点,本发明实施例会将所述功能关键词和检索关键词都归纳为名词,接着本发明实施例会基于自然语言处理技术(nlp)提取每个文本信息中的形容词和名词,为每个形容词绑定一个名词,表明所述形容词是对该名词进行描述的,就得到了所述文本信息的内容评价信息,最后会对所有的内容评价信息进行分析整合得到流媒体评价信息,流媒体评价信息能够反映整体的舆论导向,并将流媒体评价信息中功能关键词的评价内容进行特殊标记,方便厂商一眼看出新功能的市场效果,容易理解,功能关键词的评价内容就是功能关键词这个名词对应的形容词。38.如图7所示,作为本发明一个优选的实施例,所述文本信息获取模块200包括:字幕信息判定单元201,用于判定筛选后的流媒体视频是否存在字幕信息;第一文本信息单元202,当存在字幕信息时,用于对流媒体视频中的字幕信息进行文字识别得到文本信息;第二文本信息单元203,当不存在字幕信息时,用于获取流媒体视频的音频信息,对所述音频信息进行语音转文字得到文本信息。39.如图8所示,作为本发明一个优选的实施例,所述形容词名词确定模块400包括:影响度确定单元401,用于确定文本信息对应的流媒体视频作者的影响度;第一形容词名词单元402,当影响度小于或者等于设定影响值时,使用分词工具提取文本信息中的形容词和名词,并对提取的形容词和名词进行位置标记;第二形容词名词单元403,当影响度大于设定影响值时,用于接收训练语料信息,基于cnn-lstm模型对训练语料信息进行特征学习得到专属神经网络模型,通过专属神经网络模型对文本信息进行处理得到形容词和名词,对得到的形容词和名词进行位置标记。40.如图8所示,作为本发明一个优选的实施例,所述形容词名词确定模块400还包括:形容词名词绑定单元404,用于根据位置标记为每个形容词绑定一个名词,确定每个形容词的词性,所述词性包括褒义词、贬义词以及中性词;形容词分类单元405,用于根据名词对所有的形容词进行分类,得到若干个类别,每个类别所对应的名词是相同的;文本评价值单元406,用于确定所述文本信息的文本评价值,文本评价值=a×褒义词的个数+b×贬义词的个数+c×中性词的个数,所述类别和文本评价值构成内容评价信息。41.如图9所示,作为本发明一个优选的实施例,所述流媒体评价信息模块500包括:类别整合单元501,用于对所有内容评价信息中的类别进行整合,对相同名词对应的类别进行合并;影响度调取单元502,用于调取每个文本评价值对应的流媒体视频作者的影响度;总体评价值单元503,用于确定总体评价值,总体评价值=∑文本评价值×影响度,整合后的类别和总体评价值构成流媒体评价信息。42.以上仅对本发明的较佳实施例进行了详细叙述,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。43.应该理解的是,虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。44.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink) dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。45.本领域技术人员在考虑说明书及实施例处的公开后,将容易想到本公开的其它实施方案。本技术旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。









图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!




内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!




免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!

相关内容 查看全部