利用上下位关系的中文短文本分类研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:liumusi1314520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
短文本通常指文本长度小于160个字符,一般以手机短信、网页评论、网络聊天信息等形式存在的文本。短文本的分类问题是短文本应用领域必须解决的具有挑战性的基础问题之一。由于短文本具有长度短、所描述概念信号弱的固有缺陷,传统的文本分类方法并不适用于短文本。短文本分类的可行途径是利用外部资源中的可用信息来扩展短文本所描述的概念。   上下位关系作为一种重要的语义关系,利用这种关系扩展短文本的特征向量,能够在一定程度上弥补短文本描述概念不显著的缺陷。本文围绕如何将上下位关系用于中文短文本的分类展开研究,主要工作如下:   (1)建立了一个将上下位关系用于短文本分类的整体框架,即首先从短文本中抽取具有上下位关系的词对,再将获得的关系词对用于扩展短文本的特征向量。在此框架下,重点研究了如何抽取短文本中具有上下位关系的词对。由于短文本自身的特点,本文利用《知网》这种外部资源来辅助抽取上下位关系。首先通过语义消歧确定文本中的词语在《知网》中对应的概念,利用《知网》中概念的DEF项确定概念对的上下位关系,再将概念对的上下位关系整合为词语间的上下位关系。实验表明:上下位关系有助于短文本分类性能的改善,同时存在以下两个问题:   a)在确定概念间的上下位关系时只利用了首义原的信息,忽略了义原描述项中的其他义原所携带的信息,使得该关系抽取方法性能不高。   b)由于抽取的关系词对数量较少,能够实现特征扩展的文本数不多,影响了特征扩展的适用范围。   (2)针对上述问题,本文采用了一种新的方法来确定概念间的上下位关系,该方法利用了《知网》描述项中的其他义原信息,通过考察义原集合的包含关系来确定概念间的上下位关系,在一定程度上弥补了基于首义原方法的缺点。同时综合两种方法的结果,在一定程度上弥补了关系词对数不足的问题。对于两种方法计算结果不相容的问题,本文提出了一种解决思路,并实验考察了这种解决方案的优缺点。
其他文献
从上个世纪初期开始,基于内容的多媒体检索成为来多媒体信息检索领域的研究热点。传统基于内容的多媒体检索研究,主要是针对单一类型的多媒体对象,包括图像检索、音频检索、
复杂网络为研究复杂性提供了全新的视角,众多复杂网络均存在突现现象,突现已成为复杂性研究中的热点问题。目前复杂网络的研究较少考虑网络的有向性和动态演化,各种具体复杂网络
“数字化虚拟人”研究是当前国内外的热点问题之一,它是把人体形态学、物理学和生物学等信息,通过大型计算机处理,而实现的数字化虚拟人体,可代替真实人体进行实验研究的技术平台
场景是一种分析与验证需求的有效工具,因此基于场景的分析与设计受到广泛关注。一个系统需求由多个局部场景构成,这些场景是由不同的相关人员根据自己所关注的业务功能并结合
应用需求的推动、无线通信的硬件技术及相应软件技术的发展,使得移动计算技术得到了飞速的发展,并在越来越多的领域中发挥着重要作用。在移动计算环境下,大量移动终端机需要通过
经济的发展推动了物流配送行业的快速发展,物流已经成为了“第三方利润的源泉”。但是,运输成本高、运输时间长和管理效率低等问题已成为现阶段物流配送行业发展的瓶颈,严重
中国下一代互联网示范工程CNGI作为下一代互联网的实验平台,采用IPv6为重要协议,推动了IPv6在我国的发展。SIP和IPv6是下一代网的关键协议,SIP以其极好的协议扩展性已经成为构建
专用短程通信(DSRC,Dedicated Short Range Communieation)是智能交通系统(ITS,Intelligent Transport System)领域中专门用于机动车辆与路边设备交换信息的协议。DSRC系统分
信息技术的发展使得利用计算机系统作为犯罪的工具或目标的案件在司法案件中逐年增多,因此电子证据成为越来越多的诉讼证据,如何能有效地获取电子证据日益成为一个迫切需要解决
近年来,无线传感器网络的发展引起了人们越来越多的关注。“物联网”“普适计算”等和无线传感器网络相关联的新名词接连出现;ISO/IEC JTC1国际传感器网络研究组(SGSN)和ISO/IE