一种面向短文本分类的施事受事关系抽取方法

时间：

0 引言

短文本分类就是对长度短的文本（通常文本长度小于160个字符）进行自动分类，它是手机短信息过滤等现实任务的基础。短文本具有文本长度短，描述概念信号弱的特点，因此，短文本分类是一项具有挑战性的任务。

短文本分类的一种可行途径是利用一些额外的信息来辅助分类，以弥补短文本天生的固有缺陷。王细微等[1]提出一种基于关联规则挖掘算法的短文本分类方法，王盛等[2]利用上下位关系辅助短文本分类也取得了一定的效果。因此，发现并提取新的有助于短文本分类的语义关系是值得研究的课题。

利用词语间的施事、受事关系扩充短文本，也是一种有效的文本扩展方式。

例如：“我对上周网购的mp3很满意。”假设该文本特征向量为(上周，满意)，文本中“mp3”“网购”，虽然作为句子的重要成分，并具有较强的类别描述能力，但因为出现率低而不在特征空间中，但事件“网购”通常必然存在施事者“消费者”和受事者“商品”，“消费者”和“商品”较容易存在于特征空间列表中，将其扩展后的特征向量为(消费者，上周，商品，满意)，相比未扩展前，扩展后的特征向量类别描述力有较大的提高。1、面向短文本抽取施事受事关系的方法及应用

定义：施事关系，即某个事件的实施者和该事件之间的关系，例如：消费者和购买、医生和医治；受事关系，即某个事件的承受者与该事件的关系，例如：商品和购买、病人和医治等。施事、受事关系反映的是一种实体类与事件类的语义联系[3]。

要自动获取短文本中施事、受事关系词对并将其应用于文本分类，必须解决以下3个问题：(1)如何确定文本中的词语之间具有施事、受事关系；(2)如何获得一个有助于短文本分类的施事、受事关系词对集合；(3)施事、受事关系如何有效应用于短文本分类。

针对以上问题，本文提出一种利用《知网》抽取短文本中的施事、受事关系抽取模型（如图1），具体步骤为：(1) 选择一个合适的窗口来抽取真实文本中的动词、名词并形成动名词对集合。(2) 利用《知网》过滤掉知网中未定义的词对，提取词对在知网中的概念，从而实现了从自由文本数据到结构化数据的转化，形成备选概念对集合。(3) 利用《知网》提供的信息和本文提出的方法，确定备选概念对集合中的概念对是否具有施事、受事关系并计算施事、受事关系强度值。(4) 根据实际的需要，过滤掉关系强度不符合要求的词对形成最终的施事、受事关系词对集合。&nbs