发布信息

基于融合特征的网络短文本情感分析方法

作者:admin      2022-07-30 19:40:05     629



计算;推算;计数设备的制造及其应用技术1.本发明属于文本分类领域,具体涉及一种基于融合特征的网络短文本情感分析方法。背景技术:2.弹幕发源于日本,最早是指一种街机射击游戏,玩家可以使用武器在屏幕上发射大量的子弹。2006年出现了第一个弹幕视频网站:niconico。观众在观看视频时可以通过浏览器发送文字实时分享自己的看法,这些文字以类似子弹划过屏幕的方式投射在视频上,因此称为“弹幕”。3.目前,对于弹幕的研究主要集中在文化和传播领域,关于弹幕的情感分析研究较少。传统的弹幕情感分析只考虑文本本身,把弹幕当成一般的短文本。但是,弹幕与传统的微博、电影和商品评论等不同,它由观众实时发布,与视频内容高度关联,省略的信息较多,形式多样,文本较短且结构复杂。弹幕省略的信息隐藏在视频内容中以及与其时间上相邻的弹幕中。因此,判断一条弹幕的情感倾向,还应该结合视频内容进行进一步的判断。但是,视频的特征表达非常困难,我们可以用弹幕的发送时间加以代替。一般来说,在相近时间内发送的弹幕有相似的语义特征。在弹幕的情感分析研究中,时间一般用于标记视频的高光片段,研究用户的行为模式,协助视频的推荐和分类算法,很少有人考虑将弹幕的发送时间作为特征之一引入到情感分析的方法中。4.同时,传统的弹幕数据集使用机器学习的方法和传统的人工标注方法,存在两个缺陷。首先,机器学习的标注方法依赖于模型的性能,而目前的模型并不能很好的处理信息语义缺失的短文本,因此会产生比较多的标注错误的数据;其次,传统的人工标记方法只关注文本本身,对于弹幕这一类与承载它的内容相关的文本,如果只关注文本而忽视视频内容,同样也会产生较多的错误的标注数据。技术实现要素:5.针对以上问题,本发明首先改进了数据的标注方法,提出了一个更加准确的弹幕情感数据集。然后构建了一种改进的弹幕情感分类方法,结合弹幕的字特征和词特征来加强弹幕的语义表示,并通过引入时间特征和外部知识来缓解弹幕的语义稀疏问题,提高了情感分类的准确度。6.本发明提供了一种基于融合特征的网络短文本情感分析方法,其特征在于,包括以下步骤:步骤s1,对待测原始弹幕数据进行情感极性的标注生成标注后数据;步骤s2,构建并使用预定训练集训练得到基于文本和时间双通道的短文本情感分析模型,该模型具有输入层、嵌入层、融合层以及分类层;步骤s3,将标注后数据输入至短文本情感分析模型中,通过输入层提取对应的文本信息和时间信息;步骤s4,由嵌入层对文本信息和时间信息进行向量化处理,分别得到与文本信息对应的字向量、词向量以及和时间信息对应的时间向量;步骤s5,将字向量和词向量作为融合层的输入,进行深度特征提取得到字特征向量、词特征向量,并将字、词特征向量与时间向量拼接得到弹幕特征向量;步骤s6,通过分类层计算弹幕特征向量的文本标签的类别概率,从而得到待测原始弹幕数据的情感类别分析结果。7.在本发明提供的基于融合特征的网络短文本情感分析方法中,还可以具有这样的特征:其中,嵌入层具有ernie模型和线性激活函数,ernie模型的编码器由transformer结构组成,词向量基于transformer结构对文本信息进行向量化处理得到:vw=f(wexi)式中,f是编码器,we是需要被学习的参数,设定每条弹幕含有n个字,将每个字都转换成其one-hot向量的形式xi=(x1,x2...xn),通过嵌入矩阵wc得到xi的嵌入向量表达形式vi,vi=wcxi,再将每个字的嵌入向量进行拼接得到字向量,时间向量基于线性激活函数对弹幕的时间特征进行表示得到。8.在本发明提供的基于融合特征的网络短文本情感分析方法中,还可以具有这样的特征:其中,融合层具有textcnn模型,textcnn模型用于对字向量和词向量进行深度特征提取得到对应的字特征向量和词特征向量,将字特征向量、词特征向量以及时间向量拼接得到弹幕特征向量s:9.s=sw+sc+st10.式中,sw为词特征向量,sc为字特征向量,st为时间向量。11.在本发明提供的基于融合特征的网络短文本情感分析方法中,还可以具有这样的特征:其中,预定训练集的获取过程为:采用遍历的方法爬取原始弹幕,并删除重复弹幕,将得到的弹幕按每3秒划分为一个子集,根据每个弹幕所对应的视频内容和上下文弹幕内容,对弹幕进行情感极性的标记。12.在本发明提供的基于融合特征的网络短文本情感分析方法中,还可以具有这样的特征:其中,分类层包括bigru-att模型和softmax函数,bigru-att模型基于注意力机制attention和两个方向相反的gru网络组成,弹幕特征向量作为bigru的输入,在t时刻由两个gru共同决定,设定向前gru在t时刻的状态为ht1,向后gru在t时刻的状态为ht2,整个网络在t时刻的状态为ht,根据下式求得ht:ht=ht1+ht2,注意力机制attention将ht作为输入,并加权求和得到句子表达式ri:13.mi=tanh(ht)14.pi=softmax(wmi)15.ri=ht*pi;16.softmax函数对句子表达式ri计算文本标签的类别概率,得到分类结果。17.发明作用与效果18.根据本发明的基于融合特征的网络短文本情感分析方法,首先改进了对弹幕数据集的标注方法,弹幕是一种特殊的短文本,在标注弹幕时同时考虑视频的内容可以更准确地反映弹幕的真实情感。相较于传统弹幕标注只考虑文本本身的方法,提高了文本分析的准确性。然后构建了一个基于文本和时间双通道的特征融合的短文本情感分析模型,文本通道使用ernie和文本卷积神经网络(textcnn)对弹幕的深层语义特征进行进一步地提取,并融合字向量特征、词向量特征以及时间特征,从而加强弹幕的语义表达,使得弹幕的语义表达更加准确,从而有效提高分类效果。附图说明19.图1是本发明实施例的基于融合特征的网络短文本情感分析方法的流程图;20.图2是本发明实施例中数据集的构建流程图;21.图3是本发明实施例中短文本情感分析模型的结构示意图。具体实施方式22.为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,以下实施例结合附图对本发明基于融合特征的网络短文本情感分析方法作具体阐述。23.《实施例》24.图1是本发明实施例的基于融合特征的网络短文本情感分析方法的流程图。25.如图1所示,基于融合特征的网络短文本情感分析方法包括以下步骤:26.步骤s1,对待测原始弹幕数据进行情感极性的标注生成标注后数据。27.针对传统弹幕数据集的标注方法所存在的依赖性和较多错误的缺陷,本实施例改进了传统的弹幕数据标记的方法,结合视频内容和上下文弹幕的内容来对弹幕的情感进行标记。28.步骤s2,构建并使用预定训练集训练得到基于文本和时间双通道的短文本情感分析模型。29.图2是本发明实施例中数据集的构建流程图。30.本实施例中,选取b站视频bv1fj411q78j作为训练集数据的来源。由于bilibili的弹幕池算法限制,无法一次性得到全部弹幕,因此使用遍历的方法,爬取每一天的弹幕,然后删除重复的弹幕。将得到的弹幕按每3秒划分为一个子集,对应相应的视频内容。弹幕的标注由人工手动完成,同步视频内容进行情感极性的标注(如图2所示)。31.标记完成后,将弹幕写入数据库,最终得到一个12000条弹幕的数据集,该数据集的详细参数如下表1所示。32.属性内容分类方法3分类弹幕总数量(条)12000正向弹幕数量(条)3786负向弹幕数量(条)5198中性弹幕数量(条)3016文本平均长度(字符)12数据来源b站是否同步视频标注是33.表134.图3是本发明实施例中短文本情感分析模型的结构示意图。35.如图3所示,本实施例提出的一个基于文本特征和时间特征融合的双通道短文本情感分析模型,该模型具有输入层、嵌入层、融合层以及分类层。36.步骤s3,将标注后数据输入至短文本情感分析模型中,通过输入层提取该标注后数据的文本信息和时间信息。37.由于弹幕的原始数据包含很多属性,传统的情感分析方法只关注弹幕的文本信息,忽视了其他的信息。因此,在输入层,从原始数据中提取弹幕的文本信息和时间信息,通过两个单独对应的通道分别送入至嵌入层。38.步骤s4,由嵌入层对文本信息和时间信息进行向量化处理,分别得到与文本信息对应的字向量、词向量以及和时间信息对应的时间向量。39.本实施例中,嵌入层具有ernie模型(enhanced representation through knowledge integration)、w2v、t2v(time to vector)。使用ernie模型计算弹幕的词向量,使用word2vec(w2v)中的跳字模型(skip-gram)来计算弹幕的字向量。具体地:40.弹幕的文本信息序列xi首先被分词,然后送到ernie模型的编码器中,该编码器由多个transformer结构组成,可以将文本序列转换成向量。在与外部信息的实体聚合后,使用多头注意力机制提取信息,融合后得到弹幕的词向量vw:[0041]vw=f(wexi)[0042]式中,f是编码器,we是需要被学习的参数。[0043]设定每条弹幕含有n个字,将每个字都转换成其one-hot向量的形式xi=(x1,x2...xn),然后通过嵌入矩阵wc得到xi的嵌入向量表达形式vi,vi=wcxi。最后,再将每个字的嵌入向量进行拼接得到弹幕的字向量vc。[0044]同时,t2v使用改进的线性激活函数将时间信息转换成向量的形式,从而表示弹幕的时间特征,得到弹幕的时间向量st。[0045]步骤s5,将字向量和词向量作为融合层的输入,进行深度特征提取得到字特征向量、词特征向量,并将字、词特征向量与时间向量拼接得到弹幕特征向量。[0046]为了更加充分地表示弹幕的深层语义,本实施例中,融合层采用文本卷积神经网络textcnn来对弹幕的字词特征进行进一步提取,得到弹幕的深度词特征向量sw和字特征向量sc。[0047]最后将弹幕的字词向量和时间向量st拼接起来得到最终的弹幕特征向量表示s,作为分类层的输入。即:s=sw+sc+st。[0048]步骤s6,通过分类层计算弹幕特征向量的文本标签的类别概率,从而得到待测原始弹幕数据的情感类别分析结果。[0049]本实施例中,采用bigru(bidirectional gated recurrent unit)、注意力机制attention和softmax函数作为分类层。[0050]其中,gru在相关任务中的应用很多,可以较好地解决文本语义丢失的问题。bigru是gru的一种变种,由两个方向相反的gru组成,充分考虑了之前和之后的状态,在t时刻的模型状态由个共同决定。即:假设向前在t时刻的状态为ht1,向后在t时刻的状态为ht2,整个网络在t时刻的状态为ht,ht=ht1+ht2。[0051]本实施例采用注意力机制对将bigru的输出ht作为attention的输入,由向量的加权求和得到句子的表示ri,即:[0052]mi=tanh(ht)[0053]pi=softmax(wmi)[0054]ri=∑ht*pi[0055]在提取融合向量的信息后,使用注意力机制,能够让模型学习融合特征中哪些部分对弹幕的情感影响更大,充分考虑了时间和文本两种因素。[0056]最后,用softmax函数将多分类的输出转换为范围在0到1的概率分布,进行情感极性的分类。[0057]为了验证本文提出的方法的有效性分别与以下10种模型进行了比较,分别是:svm,cnn,rnn,rnn_att,rnn_att,transform,dpcnn,bert,bert_cnn,bert_rnn,不同模型在数据集上的准确率如下表2所示。[0058][0059][0060]表2[0061]上表2所示的ttdsan即为本发明对本实施例情感分析的精确率,从上表可以看出,本实施例的基于融合特征的网络短文本情感分析模型所得出的精确率可以达到84.74%,比现有技术都更高,由此可见,本发明提出的方法简单且取得了更好的结果。[0062]实施例的作用与效果[0063]根据本实施例提供的基于融合特征的网络短文本情感分析方法,首先改进了对弹幕数据集的标注方法,弹幕是一种特殊的短文本,在标注弹幕时同时考虑视频的内容可以更准确地反映弹幕的真实情感。相较于传统弹幕标注只考虑文本本身的方法,提高了文本分析的准确性。然后构建了一个基于文本和时间双通道的特征融合的短文本情感分析模型,文本通道使用ernie和文本卷积神经网络(textcnn)对弹幕的深层语义特征进行进一步地提取,并融合字向量特征、词向量特征以及时间特征,从而加强弹幕的语义表达,使得弹幕的语义表达更加准确,从而有效提高分类效果。[0064]上述实施例仅用于举例说明本发明的具体实施方式,而本发明不限于上述实施例的描述范围。









图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!




内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!




免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!

相关内容 查看全部