基于无监督聚类和朴素贝叶斯分类的文本分类方法研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:coldcoffee_10
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在现实世界中,我们可获得的大部分信息都是以诸如书籍、研究论文、新闻、数字图书、Web页面及电子邮件等各种形式出现的。这些形式的信息通常称为文本信息,它们由来自各种数据源的大量文档组成,主要存储在文本数据库中。文本数据库中存储最多的数据是半结构化数据,它既不是完全无结构的也不是完全结构化的。据统计,80%以上的数据都是以非完全结构化的形式存在,而且由于电子形式的信息量也正在迅猛增长,使得文本数据库得到迅速的发展。为了在这些海量的、异质的、非结构化的数据源中提取感兴趣的、潜在的有用模式和隐藏的信息,也需要对文本信息进行数据挖掘,这就是文本挖掘。随着文本数据的迅速增长,文本挖掘已经成为了数据挖掘领域的一个重要的研究方向。 通过数据挖掘,可以从大量的数据中提取或发现知识。模式则是知识的一种表述形式。所以无论是在数据挖掘中,还是在文本挖掘中,模式挖掘都是其中的一个重要环节。分类和聚类是两种常见模式挖掘的方法。 无监督文本聚类算法(UTC)是一种把无监督聚类算法(UC)用于文本聚类的方法。算法通过指定聚类半径R,分别对每类文本进行聚类并获得聚类中心;然后,把聚类中心作为对文本的预分类:即对任意文本,计算其与各聚类中心的距离;找到与其距离最近的聚类中心后,该聚类中心所对应的类就是文本的所属类。该方法的特点是分类速度快,但准确率较低。 朴素贝叶斯分类以其坚实的数学基础和丰富的概率表达能力,尤其是它能充分利用先验信息的特性越来越受到人们的重视,成为数据挖掘领域中的一个热点,在数据挖掘中具有广泛的应用。 论文在分析无监督文本聚类和朴素贝叶斯分类特点的基础上,提出了一个对不带任何类别标志的文本进行准确分类的方法。采用向量空间模型(VSM)来对待分类的文本进行表示,即将文本表示成在n维向量空间中的一个点。指定聚类半径R,利用无监督文本聚类方法进行聚类,获得文本类别标志集合和聚类的正例中心和反例中心,然后把聚类结果中的那些处在包含正例中心区域内的文本作为训练样本来对朴素贝叶斯分类器进行训练,最后再将在聚类结果中处
其他文献
推荐系统被认为是大数据时代最有效的个性化技术,其目标是为用户推送最有价值的信息,提高用户获取信息的效率。对于推荐系统的研究,既有重要的社会意义,又有重要的经济价值。自上
网格又被称为下一代的Internet,它代表了面向Internet的分布计算技术的新趋势。随着网格技术的使用广泛和深入,如何提供一个网格程序的开发、调试的集成丌发环境,已经成为一
随着互联网的发展,当前出现的Web标准如WSDL,SOAP,UDDI,DAML-S,使得Internet成为一个异构的、具有互操作性的Web服务的海洋,从而使应用程序的开发过程简化为发现Web服务和集成Web服
随着无线通信技术的发展,移动银行、移动证券、移动办公等无线增值应用业务相继出现。无线增值应用在给我们的生活带来极大方便的同时,也带来了很多的安全隐患。与有线环境下
当今,随着互联网技术和通信技术的高速发展,网络中数据信息量呈现爆炸式增长,用户对数据信息存储的性能和可靠性提出了更高的要求。网络中数据业务的增加使得传统单节点数据
随着Internet技术的发展以及音视频压缩技术的进步,基于Internet的多媒体交互平台受到了越来越广泛的重视。本文以构建一个实用的交互式多媒体实时教学系统为目标,对其中若干
随着因特网的迅猛发展,电子邮件正成为一种最快捷、最经济的通信手段。但电子邮件在成为一种信息交流工具的同时,也正在成为一种商业广告手段。在收到有用信息的同时,用户也从因
  本文主要对现有视频会议国际标准、相关技术进行了较深入的分析和研究,并且结合实际项目,开发了一个基于互联网的视频会议系统,设计和实现了系统的总体框架及各功能模块。 
根据目前GIS发展的趋势和方向,管网管理系统要实现的目标主要包括:(1)实现管网基本资料的管理,包括空间数据和属性数据,提供常规的统计、查询、编辑等功能。(2)实现突发事故处理
随着数字信息技术和网络技术的高速发展,嵌入式产业迅速崛起,成为二十一世纪发展最快的IT产业,嵌入式系统蕴含着巨大的市场商机。在这种背景下,已经在服务器市场稳定了地位的