基于词性的中文文本分类系统的研究与设计

来源 :北京师范大学 | 被引量 : 0次 | 上传用户:wubo_sz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类可以为文本提供有序的组织,网络信息的增长使文本分类对于信息处理的意义变得更加重要。随着海量信息的出现,分类时不仅要考虑准确性,还要考虑分类的效率,优化分类性能,提高分类速度,其中有两大关键问题需要研究,一是文本的预处理,二是文本的分类算法。本文以基于词性的特征提取和隐藏简单贝叶斯方法为重点,对文本分类模型设计的相关工作进行了探讨,具有很大的理论研究和实际应用价值。 首先较为详细的介绍了文本分类的应用领域、分类的具体流程以及分类过程中所用到的关键技术,主要包括文本预处理、特征降维和常用的分类算法,重点介绍了网页文件的抓取以及网页内容信息的提取。 接着在此基础上,提出了一种基于词性的特征提取方法,具体做法是对文本内容分词时标注词性,分别统计其中出现的各种词性的词组,根据其在语料中出现的概率为每种词设定一个因子,文章中对Chi—square方法进行改进得到一种新的特征提取法NC,通过验证得出经过NC提取特征后并进行分类的效果优于传统的Chi-square方法。 在分类器的构造中,本文引入了隐藏简单贝叶斯方法HNB,主要思想是为每一个特征词创建对应的隐藏父结点,这个父结点包含来自所有属性的信息,在使用贝叶斯理论分类时,加入隐藏父结点的信息,通过与NB及其它传统的分类算法比较得出,HNB分类法在准确率、召回率、F测量的总体性能上优于其它方法。 最后,对全文进行总结,并提出可能继续研究的方向。
其他文献
空间数据挖掘的主要特征是分析空间关系,然而,某特定空间的属性总是联系的,且能由其邻接对象的属性来解释。相对于关系数据库里的挖掘,空间数据挖掘算法为了提取有用的知识,需要考
据中国互联网络信息中心统计,截止2014年6月底,手机网民规模首次超越传统PC网民规模。Android开源操作系统凭借其充分的开放性,取得了飞速发展,市场占有率遥遥领先于iOS等其他移
边缘是图像最基本的特征,因而边缘检测是图像处理中的重要内容。近十几年来,迅速发展起来的小波理论为图像处理带来了新的理论和方法,由于小波变换的良好局部特性与多尺度特
在工业、社会、经济和管理等众多领域中,人们面临着大量的最优化问题。用模拟生物界自然现象而发展起来的群智能优化算法来解决此类问题已被越来越多研究者所关注。PSO(Parti
本文在模糊推理插值器和真值递延法的研究基础上,探讨了“等价式形式系统”(用等价式代替传统蕴涵算子所得到的新的形式逻辑系统)的二值命题演算理论。按照传统命题逻辑形式系
随着经济的发展,新的收费道路的建设,公路网覆盖地区及经济辐射区域的扩大,给路网收费设计提出了新的要求。一个是收费位置的确定,如果不考虑各地实际的经济水平和交通流量的大小
形态分析作为一种重要的股票投资方法,已经得到了广泛的应用。技术形态是股价序列中反复出现的模式,这些模式中隐含着对预测将来股价有用的信息。 过去的股价形态如果用股票
目前,基于Web方式的B/S架构模式瘦客户端应用程序正被人们广泛关注,基于这一模式的应用程序系统也被得到大量的开发。B/S架构模式的应用程序以它集中部署、集中管理和集中维护
在信息化高速发展的今天,企业对于网站功能的需求正在不断加强。随着企业网站的规模急速膨胀,企业网站站内搜索的需求油然而生。在过去的实践经验中,基于数据库检索的站内搜索和
随着多媒体技术的发展,视频资料的数据量不断膨胀,为了有效地理解和利用视频中包含的丰富信息,不仅需要合理的数据库系统来组织丰富的视频资料,还需要行之有效的视频语义理解方法