发布信息

基于深度学习的新闻评论情感识别方法 专利技术说明

作者:admin      2023-07-07 16:52:01     216



计算;推算;计数设备的制造及其应用技术1.本发明涉及情感识别、深度学习领域,具体涉及一种基于深度学习的新闻评论情感识别方法。背景技术:2.随着在线社交媒体和互联网的发展,大数据技术和信息检索技术极大地扩展了数十亿人的信息访问,信息传播进入web3.0时代。基于智能算法的信息传播模式逐渐成为一种主流的信息消费方式,同时在线社交媒体的兴起和发展,诸如微博、twitter、facebook、今日头条等,也成为人们重要的获取信息的渠道和方式。除了获取信息外,公众可以根据自己的背景、立场和观点,在网络上充分参与讨论多样化的话题。而网络舆论环境鱼龙混杂,其中对社会发展有益的建议和观点,能够为公众提供便利,给人们带来正能量,而部分失实扭曲的舆论,如果不能进行及时有效的舆论引导和监管,会对民众和国家带来严重心理恐慌和安全威胁。3.情感识别是基于多项人工智能技术、赋予计算机或机器人识别人类内在情感的能力,情感识别属于自然语言处理领域的重要研究内容之一,为政府民意调查、商家营销策略制定、互联网舆论引导和监管等提供了必不可少的技术支撑。因此,如何提高情感别的准确性有着重要意义。目前,常见的情感识别方法在情感识别过程常常存在无法正确识别用户的真正的情感和识别精准度不高的缺陷。4.因此,提高情感识别的效率和准确度,是本技术领域亟需解决的技术问题。技术实现要素:5.本发明要解决现有技术的上述技术问题,提出一种基于深度学习的新闻评论情感识别方法:6.本发明一种基于深度学习的新闻评论情感识别方法,包括如下步骤:7.s1、获取海量新闻及其评论集,对数据进行抽样与标注;8.s2、将标注数据数据分为训练集和验证集,并对其文本数据进行预处理,包括数据增强与数据清洗;9.s3、建立bert模型,所述bert模型采用采用的训练算法为bert-wwm,将训练集的评论文本进行分割并映射成one-hot向量,传入bert模型进行处理,得到对应的特征向量;10.s4、使用自注意力机制对输出的特征向量进行处理,将其输入分类层中对输出y做softmax处理得到每个类别的近似概率,选择处理结果中值最大的类别作为预测结果。11.作为本发明的一种优选技术方案,所述s1中数据抽样包括根据每个类别的新闻数量计算此类别新闻所占比重一共采集m条新闻,每个类别的新闻采样数目为m×ratioi,当m比较小时,由于某些类别的占比较小,其对应的抽样数目可能会太少,因此对最低抽样数目进行限制,保证至少抽取t条数据。抽取完新闻后,还需对新闻下面的评论进行抽取。设定每条新闻至多抽取n条一级评论(一级评论数量可能会小于n),每条一级评论中包含的子评论也一并抽取。12.作为本发明的一种优选技术方案,所述s2中训练集数据增强流程包括首先基于现有的标注数据对模型进行训练,随后用训练好的模型在测试集上进行预测,预测结果分为两部分:模型判断正确的样本和模型判断错误的样本,然后我们对这两组样本的输出(置信度)绘制对应的密度图,观察模型的学习情况,再计算模型判断的正确率超过85%时的最低置信度,综合选定最后的阈值,对于高于阈值的结果直接作为伪标注数据(伪标注是指该标注不是真实标注),低于阈值的结果进行人工标注。13.作为本发明的一种优选技术方案,所述s2中训练集与验证集数据清洗流程包括用训练好的模型在原测试集上预测结果,将模型置信度高于0.8且预测结果与标注不一致的样本列举出来,对这标注标签不一致的样本进行重新标注,对于模型置信度高且标签不一致的样本,采用模型的预测结果。14.作为本发明的一种优选技术方案,所述在s4采用自注意机制融合特征过程中,首先基于不同的参数矩阵wq、wk、wv将原始特征向量映射为新的特征向量q、k、v,其中q和k进行点积运算,在欧式空间下相近的向量点积运算所得的值也越大。随后对其采用softmax函数得到归一化的权重,并与v运算,得到经由注意力机制融合的特征向量。15.本发明的有益效果是:该种基于深度学习的新闻评论情感识别方法,通过数据增强方案用训练好的模型在测试集上进行预测同时引入了主动学习,对低置信度样本进行人工标注,提出了一套数据清洗方案,大幅降低人工重标注的比例,更正了其中超过50%的的错误标签,这种半自动的设计有效减轻了人工标注负担,同时又能更正大部分错误标注;通过利用注意力机制将所有字符特征融合起来提升分类效果,有效提高了情感识别的精准性。附图说明16.附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:17.图1是本发明方法的流程示意图。具体实施方式18.以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。19.实施例:如图1所示,本发明一种基于深度学习的新闻评论情感识别方法,包括以下步骤:20.s1、获取海量新闻及其评论集,对数据进行抽样与标注;21.s2、将标注数据数据分为训练集和验证集,并其文本数据进行预处理,包括数据增强与数据清洗;22.s3、建立bert模型,所述bert模型采用采用的训练算法为bert-wwm,将训练集的评论文本进行分割并映射成one-hot向量,传入bert模型进行处理,得到对应的特征向量;23.s4、使用自注意力机制对输出的特征向量进行处理,将其输入分类层中对输出y做softmax处理得到每个类别的近似概率,选择处理结果中值最大的类别作为预测结果。24.其中,s1中数据抽样规则为根据每个类别的新闻数量计算此类别新闻所占比重,即一共采集m条新闻,则每个类别的新闻采样数目为m×ratioi,保证至少抽取t条数据。因此,各类别的抽样数目的计算公式即为:max(m×ratioi,t)。25.其中,根据抽取的新闻,还需对新闻下面的评论进行抽取。设定每条新闻至多抽取n条一级评论(一级评论数量可能会小于n),每条一级评论中包含的子评论也一并抽取。标注人员根据呈现的上下文关系选择“正面”、“中立”和“负面”中的任意一个作为当前文本的情感倾向进行标注。26.其中,s2中数据增强方案包括基于现有的标注数据对模型进行训练,随后用训练好的模型在测试集上进行预测,预测结果分为两部分:模型判断正确的样本和模型判断错误的样本,然后对这两组样本的输出(置信度)绘制对应的密度图,观察模型的学习情况,再计算模型判断的正确率超过85%时的最低置信度,综合选定最后的阈值。对于高于阈值的结果直接作为伪标注数据,低于阈值的结果进行人工标注。27.其中,s2中数据清洗流程为用训练好的模型在原测试集上预测结果,将模型置信度高于0.8且预测结果与标注不一致的样本列举出来,对这些样本进行重新标注,对于模型置信度高且标签不一致的样本,采用模型的预测结果。28.其中,s3中获得字符特征流程为:将文本字符串进行切分,得到字符序列后,再根据词表顺序将每个字符映射为对应的one-hot向量,如此得到输入x={x0,...,xn}。one-hot向量的表征过于稀疏,因此还需要将其映射为稠密向量,即:其中其中d表示稠密向量的维度,v表示词表大小。最后使用transformer模型得到对应的输出:29.其中,在s4特征处理过程中,采用自注意力机制对s3输出的特征进行特征融合,首先基于不同的参数矩阵wq、wk、wv将原始特征向量映射为新的特征向量q、k、v,其中q和k进行点积运算。随后对其采用softmax函数得到归一化的权重,并与v运算,得到经由注意力机制融合的特征向量。此过程对应的数学表达如下:其中dh表示特征向量的维度,是调整权重的参数。最后将融合好的特征传入分类层得到输出:其中和都表示待学习的参数,c表示类别数量。30.对输出y做softmax处理即得到每个类别的近似概率对输出y做softmax处理即得到每个类别的近似概率31.选择中值最大的类别作为预测结果,对应的数值则代表选择此类别的概率。32.该种基于深度学习的新闻评论情感识别方法在实际使用时,通过采用基于自训练模型的数据增强方案以及对标注数据的质量进行了评估,引入了主动学习,对低置信度样本进行人工标注。有效提高了对未标注数据进行标签生成的准确率,这种半自动的设计有效减轻了人工标注负担,同时又能更正大部分错误标注;通过使用自注意机制融合字符特征,充分利用每个字符的特征,进而可有效提高情感识别的精准性。33.最后应说明的是:在本发明的描述中,需要说明的是,术语“竖直”、“上”、“下”、“水平”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。34.在本发明的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。35.以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。









图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!




内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!




免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!

相关内容 查看全部