发布信息

一种基于BiGRU-CNN的文本情感分析方法及设备 专利技术说明

作者:admin      2023-06-28 21:35:16     756



计算;推算;计数设备的制造及其应用技术一种基于bigru-cnn的文本情感分析方法及设备技术领域1.本发明涉及文本处理及情感分类技术领域,尤其是涉及一种基于预训练的多尺度bigru-cnn文本情感分析方法。背景技术:2.随着互联网科技的不断发展,各大平台产生了大量的文本信息。如何从大量的文本中提取重要的内容成为目前自然语言处理中的一个重要的课题。情感分析任务是将文本中的情感倾向(消极、积极等)进行分类。目前,情感分析存在以下问题:基于词典的分析法受语义表达的限制,在构造情感词时会出现覆盖不全的问题;使用传统的机器学习方法时,其特征选择依赖于人工,导致提取的文本特征不全面、准确率不高等问题。3.中国专利申请cn114547299a公开了一种基于复合网络模型的短文本情感分类方法及装置,该方案采用的算法是将bigru与单个cnn并联,缺乏对于文本中多层次的特征内容的挖掘。技术实现要素:4.为解决以上问题,在深度学习不断发展的基础上,本发明提出了一种基于预训练的多尺度bigru-cnn文本情感分类方法。5.本发明的目的可以通过以下技术方案来实现:6.作为本发明的第一方面,提供一种基于bigru-cnn的文本情感分析方法,所述方法包括以下步骤:7.采集原始文本数据集,并进行预处理;8.利用预训练的bert模型生成文本词向量;9.将词向量输入bigru-cnn模型,提取文本特征;10.通过softmax分类器对文本特征分类识别,得到情感分类结果;11.所述bigru-cnn模型包括依次连接的bigru网络、两个并联的cnn网络以及全局最大池化层。12.进一步的,所述利用预训练的bert模型生成文本词向量具体为:加载bert的预训练模型,利用bert分词器将语料的每一个词送入词嵌入层,将每个词转换成词向量。13.进一步的,所述bert模型包括一个transformer注意力机制模型,所述transformer模型包括:14.编码器,用于同时读取文本输入的所有单词;15.解码器,用于根据情感分析任务进行预测。16.进一步的,所述bigru网络用于提取全局特征,包括多个bigru模型,一个bigru模型包括一个前向传播的gru单元和一个后向传播的gru单元。17.进一步的,所述bigru模型的当前隐藏层的状态由当前输入xi及t-1处的前向隐藏层状态和反向隐藏层状态共同决定:[0018][0019][0020]其中,g函数表示输入的非线性变化,wt和vt分别表示在时间t对应bigru模型的前向隐藏层和反向隐藏层状态输出权重;bt表示在时间t对应的隐藏层状态偏差。[0021]进一步的,所述bigru-cnn模型的卷积层使用两个并联的textcnn模型,用于提取文本局部特征。[0022]进一步的,两个所述textcnn模型的卷积核的大小不同。[0023]进一步的,所述bigru-cnn模型的参数获得步骤包括:[0024]设置dropout层,用于降低模型的过拟合;[0025]设置adam优化器,用于加快模型的收敛速度;[0026]设置初始训练参数,对bigru-cnn模型进行预训练;[0027]基于预训练结果选定bigru-cnn模型的卷积核大小以及卷积尺寸。[0028]作为本发明的第二方面,提供一种电子设备,包括:[0029]一个或多个处理器;[0030]存储器,用于存储一个或多个程序;[0031]当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上任一项所述的文本情感分析方法。[0032]作为本发明的第三方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上任一项所述的文本情感分析方法的步骤。[0033]与现有技术相比,本发明具有以下有益效果:[0034]本发明提出的基于预训练的多尺度bigru-cnn模型,使用了预训练的bert模型生成文本词向量,同时结合了cnn和bigru这两个模型的优点,从而更好的捕捉文本的上下文的含义。将词向量输入到bigru,从而更好的捕捉文本的上下文信息。之后再输入到两个并联的cnn,提取文本的局部特征,最后经过全连接softmax层来进行文本的情感分类。克服现有的文本情感分析模型不能提取较多的文本特征,且考虑了文本上下文联系。[0035]目前已有的算法是将bigru与单个cnn并联,与该算法相比,本发明设计了两个并联的cnn,每个cnn的卷积核大小不同,能够挖掘出文本中多层次的特征内容,并且本发明将bigru单元与两个并联的cnn单元串联起来,通过cnn网络对bigru的输出进行更深层次的局部特征分析,而不是简单的将两个网络的输出结果拼接在一起。实验结果表明,该模型在公开数据集和上的测评取得了很好的效果。附图说明[0036]图1为本发明基于预训练的多尺度bigru-cnn情感分析方法的流程框架示意图;[0037]图2为bert句子级分类模型的架构;[0038]图3为本发明设计的bigru模型结构;[0039]图4为本发明提供的示例性实施例示出的电子设备的示意图。具体实施方式[0040]下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。[0041]本发明的目的在于克服单一的文本情感分析模型不能提取较多的文本特征,且大多模型没有考虑文本上下文联系,提出了一种基于预训练的多尺度bigru-cnn情感分析方法,该模型利用bert生成文本词向量,将特征输入到bigru提取全局特征,之后将特征输入到两个并联的cnn提取文本的局部特征,通过softmax分类器分类识别。[0042]图1为本发明基于预训练的多尺度bigru-cnn情感分析方法的流程框架示意图,主要包括以下步骤:[0043](1)、构建原始数据集[0044]采集原始文本数据集,并进行清洗,然后存储至数据集中。[0045](2)、bert词嵌入层[0046]加载bert的预训练模型,利用bert tokenizer将语料的每一个词(token)送入token embedding层,将每个词转换成768维的向量。[0047](3)、神经网络结构设计[0048]本发明设计的神经网络结构包括双向gru网络、两个并联的cnn网络和全局最大池化层。[0049](4)、模型预测计算分类[0050]将样本数据集分为测试集与训练集,将经过全局最大池化的特征通过softmax分类器分类,得到最终的结果。[0051]进一步的,作为本发明提供的基于预训练的多尺度bigru-cnn情感分析方法其中一种实施示例,具体实施步骤如下:[0052](1)、构建原始数据集[0053]本发明使用sentiment140数据集,同时实验中对数据集的处理:读取情感分析语料文件,清洗语料中存在链接、标签、表情以及特殊的符号和表情符号等无用的信息,并且删去包含少量单词的语料。[0054](2)、bert词嵌入[0055]文本向量表示在情感分析任务中起着至关重要的作用。word2vec、glove预训练的上下文模型为文本中的每个单词生成唯一的表示。但是这些方法认为单词上下文在整个文本语料库中保持不变,与现有的nlp模型从左到右或从右到左查看文本序列不同,bert支持双向训练以更好的学习文本上下文。与之前的语言表示模型不同,bert模型利用注意力机制来识别一个单词相对于文本序列中所有其它单词的上下文。通过这种方式,模型使用上一个和下一个上下文来生成语料库中存在的单词的表示。[0056]bert由一个transformer注意力机制组成,该机制可以学习单词之间的上下文关系。transformer由一个编码器组成,负责读取文本输入。它还包括一个解码器,负责根据任务进行预测。与按顺序读取文本输入的定向模型相比,transformer编码器同时读取所有单词,因此具有非定向性质。这意味着模型从所有周围的单词中学习单词的上下文。因此,它被称为句子级分类的双向bert架构。图2展示了bert句子级分类模型的架构。[0057](3)、神经网络结构设计;[0058]本发明设计的神经网络结构包括双向gru网络、两个并联的cnn网络和全局最大池化层。[0059]为了解决梯度消失和梯度爆炸的问题,lstm和gru两种变体被提出。虽然这两种变体都可以提高性能,但是gru模型的门数量较少,因此需要学习的参数也比较少。[0060]gru是lstm网络的一种效果很好的变体,它较lstm网络的结构更加简单。gru利用门结构与lstm的差异,将lstm的输入门和遗忘门组合成更新门。它只包含两个门结构,重置门和更新门,其结构更为简单,易实现。更新门用于控制前一时刻的状态信息被带入到当前状态中的程度。更新门越大,前一时刻隐藏层输出对当前隐藏层的影响越大。上一时刻隐藏层信息的忽略程度由重置门决定,重置门值越小,忽略的信息就越多。重置门主要决定前一时刻的信息如何与当前输入的信息结合。[0061]然而,gru只考虑了当前时刻之前的时序信息。但是在文本分类过程中当前时刻的输出不只和之前的状态有关,可能还和将来的状态有关系。因此本文采用bigru模型,它可以保存过去和未来的信息,一个最简单的bigru模型是通过一个前向传播的gru单元和一个后向传播的gru单元构成。bigru的当前隐藏层的状态由当前输入及处的前向隐藏层状态和反向隐藏层状态共同决定。[0062][0063][0064]其中,g函数表示输入的非线性变化,wt和vt分别表示在时间t对应的bigru的前向隐藏层和反向隐藏层状态输出权重。bt表示在时间t对应的隐藏层状态偏差。其中bigru结构如图3所示。[0065]在本发明设计的单个cnn网络中,卷积层使用textcnn模型提取文本局部特征。在文本分类中,单词组成的滑动窗口构成了文本的局部特征。textcnn模型能够自动的组合筛选文本特征,从而获得文本语义信息。在文本分类过程中,因为输入是一个句子,所以使用的是一维卷积。文本卷积与图像的卷积差异之处在于,文本地卷积运算仅针对文本序列的垂直方向。textcnn模型的卷积核的尺寸的宽度和词向量维度是一致的,所以在利用卷积核进行卷积计算时,考虑了词义和词序。[0066]卷积层在文本分类中的计算过程:假设将训练好的n*d(n个用d维的词向量表示的词)的文本向量,经过卷积计算后得到相应的特征,其卷积操作可以表示为:[0067]ci=f(w·xi:i+h-1+b)[0068]其中:f为激活函数,w∈rdxh为卷积核,xi:i+h-1为xi到xi+h-1个词,b∈r为偏置量,点乘表示卷积操作。将卷积应用到一个句子上,从上到下挪动,可以得到一个n维的向量c如下所示:[0069]c=[c1,c2,...,cn][0070]c构成卷积层的输出。通过卷积后将得到的特征向量c输入到最大池化层(1-max-pooling)减少特征的冗余信息,降低模型的过拟合,从而提取更深层次的文本特征。[0071]为了从不同层次挖掘出文本的特征信息,本发明通过选取不同的卷积核大小,采用将上述设计的两个cnn网络并联使用的方式,实现对经过bigru网络的信息进行更深层次的局部特征分析。[0072](4)、模型预测计算分类。[0073]模型进行评估时,本发明使用精确率(precision)、召回率(recall)、f1值包括宏平均f1(macro_f1)以及微平均f1值(micro_f1)作为评价指标。[0074]本发明所提出的基于预训练的多尺度bigru-cnn模型初始训练参数如下表所示,并加入了dropout层降低模型的过拟合,同时设置adam作为模型的优化器加快模型的收敛速度。[0075]表1[0076][0077][0078]在预训练的多尺度bigru-cnn模型在提取情感分析语料库特征过程中,卷积核的个数影响着模型的性能,所以模型的第一步需要先确定卷积核的数量。下表2给出,在数据集sentment140上进行模型测试的过程中,模型的指标随着卷积核个数变化情况。[0079]表2[0080]个数recallmicro_f1micro_p1560.82850.82910.82992560.83650.83640.83663560.83320.83270.8327[0081]由上表2可以看出,当卷积核个数小于256时,模型的指标随着卷积核的个数增大而增大,当卷积核个数为256时,模型的f1,recall,micro_p数值是最优的;当卷积核个数大于256时,对于多尺度bigru-cnn模型,在进行局部特征提取过程中,当卷积核过多时,词之间的距离变长,词与词之间几乎没有什么联系,所以模型的性能会变低。所以本发明采用卷积核个数为256。[0082]同时不同的卷积尺寸对模型的性能也有一定的影响。下表3展示模型的性能指标随着卷积尺寸的变化。[0083]表3[0084]大小recallmicro_f1micro_p[2,2]0.82930.82950.8312[2,3]0.83650.83640.8366[3,4]0.82900.82960.8307[4,5]0.83150.83190.8325[0085]从表3中可以看出,当两个卷积核大小不同,并选取当卷积尺寸选取[2,3]时,模型的的r值、f1值是最优的,当卷积核尺寸大于[2,3]时,模型出现率过拟合现象,所以本发明的卷积尺寸选取[2,3]。[0086]为了验证本发明提出模型的有效性,设置bigru、gru-cnn和att-c_mgu模型在数据集上进行评测,通过参数调优,最终在sentiment140数据集上测评所得到的结果如下表4所示[0087]表4[0088][0089][0090]综上可知,本发明设计的多尺度bigru-cnn模型的性能在几种模型中是最优的,相比bigru和att-c_mgu模型,多尺度bigru-cnn模型在macro_f1和micro_f1都有所提高。可以看出,本发明所提出的基于预训练的多尺度bigru-cnn模型具有很好的泛化性和鲁棒性。首先将预处理后的文本输入到bigru中提取全局特征,然后通过两个并联的cnn层可以更好的捕捉到文本的深层次局部特征,这样得到的模型可以改善cnn和bigru在情感分析任务中的缺点,从而提高模型的性能。[0091]实施例2[0092]作为本发明的第二方面,本技术还提供一种电子设备,包括:一个或多个处理器11;存储器12,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器11执行,使得所述一个或多个处理器11实现如上实施例所述的文本情感分析方法。如图4所示,为本发明实施例提供的情感分析方法所在任意具备数据处理能力的设备的一种硬件结构图,除了图4所示的处理器11、存储器12以及接口13之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。[0093]实施例3[0094]作为本发明的第三方面,本技术还提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现如上实施例所述的文本情感分析方法。所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(smart media card,smc)、sd卡、闪存卡(flash card)等。进一步的,所述计算机可读存储介还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。[0095]以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。









图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!




内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!




免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!

相关内容 查看全部