中英文核心期刊咨询网

当前位置:首页>>电子论文 > 正文

基于BERT的初等数学文本命名实体识别方法

发布时间:2021-05-14

  摘要:在初等数学领域的命名实体识别中,针对传统命名实体识别方法的词嵌入无法表征一词多义以及特征提取过程中忽略部分局部特征的问题,提出了一种基于BERT的初等数学文本命名实体识别方法BERT-BiLSTM-IDCNN-CRF。首先,采用BERT进行预训练,然后将训练得到的词向量输入到双向长短期记忆网络(BiLSTM)与迭代膨胀卷积网络(IDCNN)中提取特征,之后将两种神经网络的输出特征进行合并,最后经过条件随机场(CRF)修正后输出。实验结果表明:BERT-BiLSTM-IDCNN-CRF在初等数学试题数据集上的F1值为93.91%,相比于BiLSTM-CRF基准模型的F1值89.62%提升了4.29%,且相对于BERT-BiLSTM-CRF模型的F1值提高了1.23%,其中线、角、面、数列等实体的F1值均高于91%,验证了该方法对初等数学实体识别的有效性。此外,在所提模型的基础上结合注意力机制,模型的召回率下降0.67%,但准确率上升0.75%。

基于BERT的初等数学文本命名实体识别方法

  关键词:命名实体识别;初等数学;BERT;双向长短期记忆网络;膨胀卷积;注意力机制

  0引言

  随着互联网和大数据技术的发展,信息化技术被广泛应用于教育领域,当前有很多线上题库网站,能辅助学生进行课外学习。但一方面这些平台的运营和维护需要耗费大量的人工成本,同时存在人为主观因素的影响。因此如何让计算机去阅读并理解知识,实现教育资源的自动化整合和管理是目前的研究热点。

  另一方面题库中的试题一般以章节知识点进行分类,比较粗糙,用户很难准确找到符合自身需求的试题,因而对初等数学试题文本进行自动化的细致知识点标注显得十分重要。

  命名实体识别(NamedEntityRecognition,NER)是自然语言处理领域的基本任务之一,其能识别出文本中体现概念的实例,即实体。对试题文本进行命名实体识别是进行细致化知识点标注的基础,同时也能为试题平台节省人力成本,并为后续领域知识图谱的构建、试题推荐等应用打下基础,基于上述需求,本文通过爬取题库网站中的试题文本构造数据集,并在此数据集的基础上对初等数学领域的实体识别展开研究。

  1命名实体识别相关研究

  对于命名实体识别的研究主要经历了以下几个阶段,第一个阶段是是采用基于词典和规则的方法,这种方法的缺点是其依赖于专家的手工构造的规则模板,不仅耗费人工,且存在主观因素,容易产生错误,可移植性差。第二个阶段主要是基于统计机器学习的方法,例如乐娟等[1]将隐马尔可夫模型应用到京剧领域进行命名实体识别。程键一等[2]利用支持向量机(SupportVectorMachine,SVM)与条件随机场(ConditionalRandomField,CRF)结合的分类器对电子病历中的隐私信息进行判别。何彬等[3]利用字符级别的CRF构建了医学实体的识别模型,避免了因为分词而带来的错误积累。基于统计机器学习的方法尽管不需要手工构造规则模板,但是繁琐的特征工程依然需要大量人工参与。

  第三阶段,随着深度的发展,由于深度学习的方法避免了繁琐的特征工程,同时拥有较强的泛化能力,使其在NER任务上得到很好的应用。例如,单向长短期记忆网络(LongShort-TermMemory,LSTM),因其较强的序列特征提取能力,被广泛用于NER任务中,且常与CRF结合(LSTM-CRF)[4],以得到更好的识别效果。由于单向长短期记忆网络只能提取单向的文本特征,因此Lample等[5]在此基础上提出了双向长短期记忆网络(BidirectionalLong-ShortTermMemory,BiLSTM),以提取全局的上下文特征,并与CRF结合组成BiLSTM-CRF(BidirectionalLong-ShortTermMemory-ConditionalRandomField)神经网络模型,使得识别效果进一步提升,此后该模型逐渐成为深度学习解决各个领域NER问题的主流模型。例如Pin等[6]采用BiLSTM-CRF方法进行司法领域的命名实体识别;肖瑞等[7]将BiLSTM-CRF模型,应用到中医领域,对中草药、疾病以及症状进行实体识别,取得了较好的效果。同时有很多学者在BiLSTM-CRF模型的基础上对其进行了改进。例如李丽双等[8]首先利用卷积神经网络(CNN)训练出字符级向量,然后输入到BiLSTM-CRF中,以解决人工特征的依赖性;在化学领域上,Luo等[9]在BiLSTM-CRF模型的基础上引入了注意力机制(Attention),以达到文档级别的标注能力;张晗等[10]将生成对抗网络与基于注意力机制的BiLSTM-CRF模型结合解决由于实体名称多样性导致标注不一致的问题,以提高识别效果。

  此外Strubell等[11]首次采用迭代膨胀卷积神经网络(IteratedDilatedConvolutionalNeuralNetwork,IDCNN)进行命名实体识别,由于IDCNN较传统卷积神经网络(ConvolutionalNeuralNetwork,CNN)具有更大的接受域,因此在提取序列特征的时候能够很好的兼顾到局部特征;吕江海等[12]在IDCNN-CRF(IteratedDilatedConvolutionalNeuralNetwork-ConditionalRandomField)模型的基础上引入注意力机制,该模型采用特殊步长的膨胀卷积对文本特征进行提取,同时引入注意力机制使得文本特征更加精确。

  另一方面,为了使词向量能够表征丰富的语义特征,有学者提出了预训练语言模型,即通过在较大规模无标注数据上做无监督训练,以提取丰富的语境及语义特征,服务于下层的自然语言处理任务。

  当前,在自然语言处理领域,使用较为广泛的预训练语言模型是word2vec,但是其训练出来的词向量属于静态的词嵌入,无法表示一词多义[13]。针对此问题,Peters等[14]提出一种基于双向LSTM结构的预训练语言模型ELMo(EmbeddingfromLanguageModels),该模型能提取双向的文本特征。此外,Radford等[15]将提出了一种基于单向Transformer编码器结构的预训练模型GPT(GenerativePre-Training),Transformer编码器相对于LSTM能够提取更远的语义信息,但是由于GPT模型是单向的,因此其无法提取到全局的上下文信息,因此谷歌团队Devlin等[16]提出双向Transformer编码器结构的预训练语言模型BERT,进一步提升了词向量的语义表征能力,使其在下游的命名识别任务上获得了较大的提升。例如Souza等[17]采用BERT-CRF(BidirectionalEncoderRepresentationfromTransformers-ConditionalRandomField)模型应用到葡萄牙语的命名实体识别上,取得了较好的识别效果。张秋颖等[18]提出一种基于BERT的BiLSTM-CRF模型用于学者主页信息抽取,结合BERT模型后,模型的识别效果得到了较大提升。王月等[19]在BERT-BiLSTM-CRF(BidirectionalEncoderRepresentationfromTransformers-BidirectionalLong-ShortTermMemory-ConditionalRandomField)模型的基础上引入注意力机制,进行警情文本的命名实体识别,进一步提升了模型的性能。

  考虑到BERT预训练语言模型具有表征一词多义的能力,以及IDCNN模型能够兼顾局部特征的优势,本文在基础模型BiLSTM-CRF上提出了一种BERT-BiLSTM-IDCNN-CRF(BidirectionalEncoderRepresentationfromTransformers-BidirectionalLong-ShortTermMemory-IteratedDilatedConvolutionalNeuralNetwork-ConditionalRandomField)的命名实体识别方法,该方法首先利用BERT模型进行预训练获取词向量表示,然后将词向量输入到BiLSTM与IDCNN中进行特征提取,并将两者提取到的特征向量进行拼接,以弥补BiLSTM忽略掉局部特征的缺点,最后通过CRF进行修正后输出。同时为了捕捉对于分类起关键作用的特征,本文在所提方法的基础上引入了注意力机制,即在BiLSTM与IDCNN提取特征后,通过注意力机制对所提取到的特征进行权重分配以强化关键特征的作用。本文将所提出的方法应用到教育领域,即对初等数学语料进行命名实体识别,实验结果表明,该方法在初等数学语料中达到了93.91%的F1值,相对于基准模型BiLSTM-CRF有较大的提升,引入注意力机制后该方法的召回率降低,但准确率有所提升。

  2BERT-BiLSTM-IDCNN-CRF模型

  2.1模型概述

  本文提出的基于BERT的初等数学文本的命名实体识别方法的核心是BERT-BiLSTM-IDCNN-CRF神经网络模型的构造。图1为结合注意力机制后的BERT-BiLSTM-IDCNN-CRF神经网络模型的整体结构,该模型主要由4层组成:BERT预训练层、BiLSTM与IDCNN融合层、注意力机制层和CRF推理层。BERT预训练层主要是通过无监督方式在大规模未标注数据上做训练,以提取丰富的语法及语义特征,得到词向量表示。然后BiLSTM与IDCNN主要是完成下层的特征提取任务,并将BiLSTM和IDCNN模块的输出的特征向量进行拼接,以保留BiLSTM和IDCNN两者提取到的特征,实现特征融合,并将融合的特征向量传递给注意力机制层,注意力机制层主要是提取对于分类起关键作用的特征,最后利用CRF层对Attention层的输出进行解码,得到一个预测标注序列,从而完成识别任务。

  本文所提出的模型主要优势在于三个方面,一方面是BERT语言预处理模型的应用,它能自动提取出序列中丰富的词级特征、语法结构特征和语义特征。另一方面是BiLSTM与IDCNN模型的特征融合,BiLSTM模型能够提取到全局的上下文特征,但是会忽略掉部分局部特征,针对该问题,本文将IDCNN模型提取到的局部信息与BiLSTM模型的输出进行融合,进一步提高了模型特征提取能力。最后是注意力机制对提取到的特征进行权重分配,强化了关键特征,弱化对于识别不起作用的特征。

  2.2BERT模型

  BERT模型的结构如图2所示,其中模型的输入向量为12,,EEEn。并通过在大规模无标注数据上进行训练,得到相应的参数,推理输出输入序列的词向量表示,即12,,TTTn,使得词向量具有较强的语义表征能力。

  BERT预训练模型的主要由双向Transformer编码结构组成,其中Transformer[20]由自注意机制和前馈神经网络组成,其相比于LSTM能捕捉更远距离的序列特征,Transformer编码结构如图3所示。

  自注意力机制的工作原理主要是计算文本序列中词与词之间的关联程度,并根据关联程度的大小来调整权重系数的大小,这样训练出来的词向量是一种动态的词嵌入,能够提取到远距离的序列特征,其中关联程度大小的计算方法如公式1所示。

  相关期刊推荐:《计算机应用》以介绍计算机应用技术为重点,以推动经济发展和科技进步为宗旨,以促进计算机开发应用创新为目标。主要栏目:人工智能、数据科学与技术、网络空间安全、先进计算、网络与通信、虚拟现实与多媒体计算。

  此外BERT模型进行无监督训练时采用的是遮蔽语言模型(MaskedLanguageModel,MLM)和下一句预测的方法,相比于ELMO和GPT单向的训练方式能更好地捕捉到词语级和句子级的特征。其中遮蔽语言模型的实现方法是随机遮蔽少部分的词,让训练模型预测遮蔽部分的原始词汇,以提取更多的上下文特征。下一句预测训练方法是指训练模型判断两个句子之间是否具有上下文关系,并用标签进行标注,该方法能让词向量表征更丰富的句子级特征。

  2.3BiLSTM神经网络模型

  BiLSTM由两层方向相反的LSTM组成,以提取全局的上下文特征。LSTM是一种特殊的循环神经网络(RecurrentNeuralNetwork,RNN),相比于传统的RNN,LSTM神经元结构创新地采用了三个门控制单元,分别为输入门,输出门和遗忘门。其中输入门控制当前信息,输出门决定输出信息,遗忘门决定遗忘神经元中的哪些信息,通过三个门的控制,使得LSTM具有长序列特征的记忆功能,同时解决了传统RNN训练过程中出现的梯度消失及梯度爆炸问题[23]。三个门的状态更新方式如公式5-9所示。

  2.4IDCNN神经网络

  迭代膨胀卷积神经网络是由多层不同膨胀宽度的膨胀卷积神经网络(DilatedConvolutionalNeuralNetwork,DCNN)[24]组成,DCNN相对于传统的卷积神经网络,其卷积核做了膨胀处理,因此增加了感受野。如图4(a)所示为常规的卷积操作,膨胀宽度为1,卷积核大小为3x3,其感受野也为同样大小的3×3,而图4(b)所示为膨胀宽度为2的3×3大小的卷积核,但是其感受野扩展为7x7。DCNN的好处在于不改变卷积核大小的情况下,使卷积输出包含更大视野的信息,因此能够较好的捕捉长序列特征,同时也能兼顾到局部特征[25]。

  2.5注意力机制

  注意力机制层的主要作用是在BiLSTM和IDCNN融合层提取的特征中提取出对实体识别起关键作用的特征,其主要思想是通过对上层输出的特征向量中的特征进行权重分配,突出对分类起关键作用的特征,弱化甚至忽略无关特征,对于i时刻模型经过注意力机制加权后的输出如公式9所示。

  3数据标注及评估方案

  本文采用爬虫的方式从在题库网中爬取出10万字左右的初等数学试题文本,并对试题文本进行标注,实体类别有13种,分别为:角、圆、椎体、方程、函数、线、点、四边形、数列、集合、面、三角形、向量。部分实体的描述和示例如表1所示:

  3.1标注规范

  在命名实体识别任务中,对于数据中实体的标注主流的方法有两种,分别为BIO三段标记法和BIOES五段标记法。本文采用的是BIO标注方法,即B表示实体的第一个字符,I表示实体的中间字符,O表示与所有实体都不相关的字符。

  3.2评估标准

  本文采用准确率P,召回率R和F1值对实体识别效果进行评价,其计算方法如公式16-18所示,TP为模型识别正确的实体个数,FP为模型识别到的不相关实体个数、FN为模型没有检测到的相关实体个数。

  4实验结果和分析

  4.1实验环境

  4.2模型参数设置

  模型的训练参数如表3所示,主要有BERT预训练模型用到的Transformer结构为12层,其中多头注意力机制的头数为12,隐藏层维度为768,然后是Lstm_dim为128,每批次的大小为16;DCNN块中3层卷积的膨胀宽度分别为1,1,2。优化器采用的是Adam,学习率设置为5×10^(-5),attention_size为128,丢弃率为0.5,同时使用了梯度裁剪技术,以缓解梯度消失和爆炸的影响,clip设置为5。

  从表4中可以看出,与只使用CRF相比,IDCNN-CRF模型的识别效果有了较大的提升,这是因为IDCNN具有提取局部和上下文特征的能力,而BiLSTM-CRF模型相对于IDCNN-CRF模型的准确率和召回率均有一定提升,这是因为BiLSTM相对于IDCNN具有更强的全局上下特征提取能力。在BiLSTM-CRF模型的基础上引入注意力机制后,模型的召回率有所提升,整体F1值变化不明显。此外BiLSTM-IDCNN-CRF(BidirectionalLong-ShortTermMemory-IteratedDilatedConvolutionalNeuralNetwork-ConditionalRandomField)和BERT-BiLSTM-CRF模型的F1值相对于基准模型BiLSTM-CRF均有一定提升,这是因为BiLSTM模型在提取全局的上下文特征的时候,会丢失掉局部信息,而引入IDCNN能够提取到局部特征,能有效改善这一缺点,同时BERT预训练模型具有较强的语义表征能力,能让下层的识别任务表现得更优秀。从实验结果中可以看出,本文提出的BERT-BiLSTM-IDCNN-CRF模型,利用了BERT模型较强的表征能力,同时通过BiLSTM与IDCNN的融合,改善了BiLSTM模型忽略局部特征的缺点,在准确率、召回率、F1值三项指标上较前四种模型均有一定提升。在BERT-BiLSTM-IDCNN-CRF模型上引入注意力机制后,模型召回率下降,但是准确率有所提升。

  为了更加直观展现各个实体识别的效果,图5为BiLSTM-IDCNN-CRF、BERT-BiLSTM-CRF和BERT-BiLSTM-IDCNN-CRF三种模型在初等数学文本上各个实体的F1值,从图中可以看出BiLSTM-IDCNN-CRF在线和四边形的F1值较BERT-BiLSTM-CRF模型要高,但是在其它实体的识别效果上比BERT-BiLSTM-CRF模型低,而本文所提出的模型BERT-BiLSTM-IDCNN-CRF结合了两者的优势,在大部分实体的识别效果上较两种对比模型要好。

  本文利用BERT-BiLSTM-IDCNN-CRF模型得到的各个实体识别结果如表5所示。

  从表5中可以看出,本文采用的BERT-BiLSTM-IDCNN-CRF模型在大部分实体上取得了不错的识别效果,部分实体类别如角,向量,数列等识别准确率能达到94%以上,其主要原因是这些实体类别的周围往往有一些明显的特征,如角的前面一般都有关键字∠,向量的后面一般会有关键字→,数列的前后一般会有{},且一般这些实体之前都会有提示词,因此可以让模型捕捉到明显的特征信息进行正确的标注,需要说明的是这些关键词和提示词并不总是存在,且其它实体类别周围往往没有这些明显的特征。此外,从图5以及表5中可以看出实体圆和方程的标注结果较其它实体的效果差,其主要原因是圆和方程会出现实体嵌套情况,如圆的坐标表示会用到方程,使得识别效果变差。

  5结语

  本文对初等数学领域的命名实体识别进行了研究,提出了一种基于BERT的初等数学文本命名实体识别方法,该方法利用BERT预训练模型获得词的向量化表示,然后输入到BiLSTM和IDCNN模型中进行特征提取,并将两者的输出的特征向量进行融合,最后通过CRF对初等数学试题文本中的点、线、面、向量等实体进行标注。实验结果表明,本文所提方法的识别效果明显好于传统的CRF方法,且相对于其它几种主流命名实体识别方法也有一定的提升。同时在所提方法的基础上引入注意力机制后,该方法的召回率下降,但是准确率有所上升。部分实体之间存在实体嵌套的情况,导致识别率偏低。本文实现的初等数学命名实体识别为后续相关领域知识图谱的构建打下基础,而且与传统机器学习方法相比,本文所提方法不依赖于特定领域的人工特征,因此可以很容易地应用到其它领域。后续将进一步扩大数据集的规模,并针对实验过程中出现的实体嵌套问题展开研究,以达到更好的识别效果。——论文作者:张毅,王爽胜*,何彬,叶培明,李克强

回到顶部