基于语义扩展的短文本分类研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:kaliya
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的迅速发展加剧了信息时代的进步,短文本作为一种简单高效的表达方式广泛存在于各种社交网站中,如微博、新闻标题、商品评论、论坛、朋友圈等,想要从这些海量的文本资源中挖掘出有用的信息变得愈加困难。由于短文本具有稀疏性、即时性、海量性、不规则性等特点,传统的分类方法仍然存在文本语义信息提取不足和严重的数据稀疏问题。目前,引入外部知识库来扩展短文本的语义信息是较为热点的研究方向,如何才能获得文本中多层语义表达,并且消除短文本中不相关术语的影响,成为当前短文本分类研究的一个重要课题。针对上述问题并参考已有的研究成果,本文引入语义特征扩展的思想,将Probase语义网络作为外部知识库,通过词语概念化和增加语义共现词的方式对短文本进行扩充,使其能够更好地表达短文本中隐含的信息,达到消歧的效果。然后再结合Word2vec模型训练语义信息词向量,很好地解决了文本表示所面临的数据稀疏性和词语之间语义不足的问题,在传统分类模型的基础上,提出了一种基于语义扩展的短文本分类方法。本文首先仔细分析了短文本独有的特点和传统短文本分类技术,指出了传统短文本分类模型中存在的缺陷,确定了Probase知识库相较于其他知识库在扩展短文本语义信息上的优势;其次,推断出短文本中每一个词语符合该语境的概念词和共现词,然后作为词语的语义信息添加到文本中,同时根据上下文语境选取最具代表性的概念进行匹配,并删除模糊术语。结合Probase语义网络和Word2vec词向量对文本进行特征向量表示,该方法不仅能够丰富短文本语义信息,而且还能准确地表现出词语之间的相互联系以及上下文结构表达;再次,针对传统分类模型,从短文本预处理、文本表示等步骤进行优化,概念化的短文本采用基于Word2vec模型的短文本分类方法解决传统分类模型中存在的文本特征向量维度过高和稀疏性的问题,获得高质量的语义特征词向量表示;最后,通过比较目前已有的分类方法,选择LIBSVM算法进行短文本分类,将本文提出的基于语义扩展的短文本分类方法与传统的分类方法进行对比。实验结果表明,本文所提出的方法可以取得更好的分类效果。
其他文献
公允价值基于决策有用观,与其所代表的内容相统一,可以为投资者提供当前经营状况以及未来发展前景的相关信息。2010年,财政部要求上市公司在年度财务报告中对公允价值信息进行分层披露,以规范公允价值计量模式的应用。公允价值计量属性的使用不断普及,不仅对企业会计信息质量凸显出重大意义,对分析师的盈余预测准确度也有着积极的作用。但是,公允价值具有一定的人为可操作性以及一定的主观性,使得公允价值的运用饱受争议
当前电子信息设备在社会生活中的应用越来越广泛,而电子信息设备中出现电池体积大、使用寿命短、维护成本高等问题。射频能量收集系统可以很好地解决诸如此类问题,也能为随之
《汉文典·文章典》是成书于20世纪初的文章学理论著作,蕴含着丰富的文章写作理论。本文基于高中语文写作教学现状,运用文本细读法、文献研究法深入挖掘《汉文典·文章典》中
随着科学技术的不断进步,优化理论在工程技术领域有着越来越多的应用。智能优化方法由于应用性广,扩展性强,对初始解要求低等特点,被广泛应用在高维复杂优化问题上,并形成了
便携设备的使用离不开集成电路(IC)工艺和半导体技术的发展。模拟集成电路满足精度的前提下,降低供电电压并不意味着低功耗,因此极低电压与极低功耗一直都是模拟集成电路设计的挑战。作为模拟信号与数字信号之间转换的桥梁,模数转换器(analog-to-digital converter,ADC)也必须实现低压、低功耗。而逐次逼近型(successive approximation register)模数转
近年来,随着科技和社会的发展进步,人们追求更加智能的生活和工作环境,徒手交互作为最常用的智能人机交互方式,具有深远的研究意义和广阔的应用环境。以往的徒手操作依赖于传
随着大数据时代的到来和智能移动设备的普及,多样化的移动通信业务需求使得无线网络的流量急剧增加。网络流量分布的较强时变特性将导致非高峰期的网络利用率较低而高峰期的网络阻塞问题严重。编码缓存通过在非高峰期将部分文件放入用户缓存并在高峰期利用用户缓存创造编码多播机会,从而显著提升了非高峰期的网络利用率并减小了高峰期的网络负载。作为一种重要的编码缓存方案,去中心化方案凭借其优异的网络传输速率性能、内容预置
边动态多智能体系统是近年来新兴的研究方向,系统的能控性与一致性问题更是研究过程中的热点问题。分析智能体之间的耦合关系对于分析系统实现的整体功能十分重要,因此,本文主要研究在各个智能体之间的耦合关系发生动态变化时,系统的能控性和一致性问题。本文研究的主要内容与贡献包括:首先,对多智能体系统模型(一阶邻居协议下拉普拉斯系统模型、一般的边动态多智能体系统模型及一阶边动态多智能体系统模型)进行了详细的介绍
FPGA(Field Programmable Gate Array)即现场可编程门阵列,这种集成电路芯片可以给用户提供大量的逻辑资源。用户可以根据自身的需求,通过改变芯片的配置信息对其功能进行定
“天下为公”是孙中山吸收中国传统儒家思想、西方民主思想和马克思社会主义思想,在长期革命实践过程中对于近代中国局势的研究,以及对中国未来发展方向探索的基础上提出的重