一种面向短文本分类的施事受事关系抽取方法
发布时间:2013-03-19
0 引言
短文本分类就是对长度短的文本(通常文本长度小于160个字符)进行自动分类,它是手机短信息过滤等现实任务的基础。短文本具有文本长度短,描述概念信号弱的特点,因此,短文本分类是一项具有挑战性的任务。
短文本分类的一种可行途径是利用一些额外的信息来辅助分类,以弥补短文本天生的固有缺陷。王细微等[1]提出一种基于关联规则挖掘算法的短文本分类方法,王盛等[2]利用上下位关系辅助短文本分类也取得了一定的效果。因此,发现并提取新的有助于短文本分类的语义关系是值得研究的课题。
利用词语间的施事、受事关系扩充短文本,也是一种有效的文本扩展方式。
例如:“我对上周网购的mp3很满意。”假设该文本特征向量为(上周,满意),文本中“mp3”“网购”,虽然作为句子的重要成分,并具有较强的类别描述能力,但因为出现率低而不在特征空间中,但事件“网购”通常必然存在施事者“消费者”和受事者“商品”,“消费者”和“商品”较容易存在于特征空间列表中,将其扩展后的特征向量为(消费者,上周,商品,满意),相比未扩展前,扩展后的特征向量类别描述力有较大的提高。1、 面向短文本抽取施事受事关系的方法及应用
定义:施事关系,即某个事件的实施者和该事件之间的关系,例如:消费者和购买、医生和医治;受事关系,即某个事件的承受者与该事件的关系,例如:商品和购买、病人和医治等。施事、受事关系反映的是一种实体类与事件类的语义联系[3]。
要自动获取短文本中施事、受事关系词对并将其应用于文本分类,必须解决以下3个问题:(1)如何确定文本中的词语之间具有施事、受事关系;(2)如何获得一个有助于短文本分类的施事、受事关系词对集合;(3)施事、受事关系如何有效应用于短文本分类。
针对以上问题,本文提出一种利用《知网》抽取短文本中的施事、受事关系抽取模型(如图1),具体步骤为:(1) 选择一个合适的窗口来抽取真实文本中的动词、名词并形成动名词对集合。(2) 利用《知网》过滤掉知网中未定义的词对,提取词对在知网中的概念,从而实现了从自由文本数据到结构化数据的转化,形成备选概念对集合。(3) 利用《知网》提供的信息和本文提出的方法,确定备选概念对集合中的概念对是否具有施事、受事关系并计算施事、受事关系强度值。(4) 根据实际的需要,过滤掉关系强度不符合要求的词对形成最终的施事、受事关系词对集合。&nbs