基于特征模板和SVM的中文微博观点句识别方法研究

来源 :广西师范学院 | 被引量 : 0次 | 上传用户:xiaoxiaodeai1002
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着WEB2.0技术及微博平台的迅猛发展,发布中文微博逐渐成为很多人的一种生活方式和习惯。通过分析微博观点句,个体消费者可以参考其他购买了产品或服务的用户的感受和观点做出他自己的购买决定,公司可以了解顾客的体验从而提升产品或服务的质量、营销策略或竞争模式,国家可以根据大众言论更好地掌握民生、分析舆情和服务大众。但由于海量的微博数据中包含无数冗余、包含噪声及无观点的信息,所以识别并提取中文微博中的观点句已成为近年来的研究热点之一。本文主要从以下几个方面开展研究工作:首先,总结和分析微博文本的独有特征,根据这些特征对Hownet词库进行扩展,并对初始微博语料中的不规范化等现象进行了相应的预处理。然后,利用信息增益对泛选的特征进行了特征筛选,并设计一个评分函数来探索识别观点句的特征模板,然后将该特征模板与SVM分类器相结合,使用Java程序设计语言对中文微博语料进行了观点句与非观点句的二分类实验。最后,通过分析非观点句的特点,设计了一个否定模板,并进行了相应的实验来验证其有效性。本文的主要创新点为:1)从多方面对微博特征进行考虑,从而对Hownet词库进行有效扩展,使得分词处理更加准确。2)结合信息增益的方法和评分函数以及相关分析设计特征模板,从而达到更好的分类效果。3)设计了一个否定模板,提供了探索观点句识别的逆向思路。
其他文献
空间数据库和基于移动用户位置的信息服务正得到日益广泛的应用,对访问控制模型也具有特殊要求:用户地理位置的变化通常会引起用户权限的动态变化。因此,空间信息在访问控制
科技文献是人们获得科技信息的重要来源之一,通过对科技文献进行有效的处理,可以揭示文献内部潜在的信息和知识,进而使人们可以快速、高效地获取文献信息。科技文献的自动分
组合优化是运筹学的重要分支,主要通过对数学方法的研究寻找离散事件的最优排序、分类或筛选等。大多数这类问题通常在多项式时间里无法求解,属于NP完全问题。随着问题规模的扩
本文主要研究了神经外科虚拟手术系统中的三维建模及人机交互技术。神经外科虚拟手术系统是虚拟现实技术和图形图像处理技术在神经外科医学领域的重要应用,涉及到虚拟现实、
如今的社会已经步入了一个高度信息化的时代,每天都会出现海量的信息,如何从这些海量的数据中提取有用的信息,来创造价值,就成为了一个关键问题。数据挖掘建立在对数据研习的基础
在数据集成和信息网络技术领域中,如何解决“信息孤岛”问题以更好的利用网络上浩如烟海的异构信息一直是具有挑战性的研究热点之一。如今我们面对的信息库由成前上万个异构信
随着计算机技术的发展和网络的普及,利用计算机或以计算机为目标的犯罪事件频繁发生。如何最大限度地获取计算机犯罪相关的电子证据,将犯罪分子绳之以法,政法机关在利用高技
随着互联网的快速发展,电子商务系统的规模越来越庞大,给人们带来了快捷和方便,但是这种便利性同时也带来信息过载的问题。推荐系统作为信息过滤技术中非常重要的一种方法,能够有
随着计算机和互联网技术的发展,国内公司企业信息化的深化,电子文档在企业内部网和电子政务网中使用广泛,很多机密文件都以电子文档的形式分发和存储。由于电子文档易于编辑
本文以“基于GIS的苏州消防应急系统的开发与设计”项目为背景。该系统是为城市安全建设、规划、管理以及应急救援、事故、灾害等紧急状况提供信息和服务的地理信息系统。根