论文部分内容阅读
短文本通常指文本长度小于160个字符,一般以手机短信、网页评论、网络聊天信息等形式存在的文本。短文本的分类问题是短文本应用领域必须解决的具有挑战性的基础问题之一。由于短文本具有长度短、所描述概念信号弱的固有缺陷,传统的文本分类方法并不适用于短文本。短文本分类的可行途径是利用外部资源中的可用信息来扩展短文本所描述的概念。
上下位关系作为一种重要的语义关系,利用这种关系扩展短文本的特征向量,能够在一定程度上弥补短文本描述概念不显著的缺陷。本文围绕如何将上下位关系用于中文短文本的分类展开研究,主要工作如下:
(1)建立了一个将上下位关系用于短文本分类的整体框架,即首先从短文本中抽取具有上下位关系的词对,再将获得的关系词对用于扩展短文本的特征向量。在此框架下,重点研究了如何抽取短文本中具有上下位关系的词对。由于短文本自身的特点,本文利用《知网》这种外部资源来辅助抽取上下位关系。首先通过语义消歧确定文本中的词语在《知网》中对应的概念,利用《知网》中概念的DEF项确定概念对的上下位关系,再将概念对的上下位关系整合为词语间的上下位关系。实验表明:上下位关系有助于短文本分类性能的改善,同时存在以下两个问题:
a)在确定概念间的上下位关系时只利用了首义原的信息,忽略了义原描述项中的其他义原所携带的信息,使得该关系抽取方法性能不高。
b)由于抽取的关系词对数量较少,能够实现特征扩展的文本数不多,影响了特征扩展的适用范围。
(2)针对上述问题,本文采用了一种新的方法来确定概念间的上下位关系,该方法利用了《知网》描述项中的其他义原信息,通过考察义原集合的包含关系来确定概念间的上下位关系,在一定程度上弥补了基于首义原方法的缺点。同时综合两种方法的结果,在一定程度上弥补了关系词对数不足的问题。对于两种方法计算结果不相容的问题,本文提出了一种解决思路,并实验考察了这种解决方案的优缺点。