基于词频统计的文本分类模型研究

来源 :上海师范大学 | 被引量 : 0次 | 上传用户:ytx45
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在数据挖掘中,分类是一种重要的技术,它能对大量有关数据进行分析、学习,并建立相应问题领域中的分类模型。该技术在科学、工程、金融等领域均有广泛的应用。本文介绍了文本分类中文档的表示方法,对高频词表示文档的词频统计算法进行了深入的研究,分析了目前算法存在的问题,提出了一种树结构词频统计方法,实现了多关键词的高效匹配,并在此基础上实现了一个词频统计器,利用它可以快捷的将文本表示为高频词的集合,方便实现文本分类。在对各种经典的分类算法研究的基础上,着重对贝叶斯网络分类算法进行了研究,详细阐述了朴素贝叶斯分类算法的相关理论,并在其基础上提出了一种建立属性间依赖关系的方案,实现了一个基于属性依赖的贝叶斯分类器,较好的解决了朴素贝叶斯分类中属性独立性假设所带来的弊端。利用树结构词频统计算法得到的实验数据,对决策树、向量空间模型、朴素贝叶斯分类和属性依赖贝叶斯分类进行了实验比对,分析了各个方法的优缺点。实验结果表明,属性依赖贝叶斯方法有较好的分类性能。
其他文献
移动Ad Hoc网络是一种新型的移动多跳无线网络,通过移动节点间的相互协作、自我组织来实现网络连接和数据传递。由于建网方式灵活、配置快捷方便和构造成本较低,移动Ad Hoc网络
本课题的研究内容是基于数据报文软件的软件测试技术研究。目的在于提高软件测试的工作效率,最大程度的实现测试自动化。 首先,本文简单介绍了数据报文软件的体系结构、主要
数字版权保护技术主要包括加密技术和数字水印技术。对于加密后的作品,只有拥有解密密钥的人才‘能使用。可是,如果解密后数字作品不加以控制,就存在被非法复制,甚至盗版的危险。
近年来由于计算机技术在工程设计领域的广泛应用,使CAD(计算机辅助设计)技术迅速发展起来。目前,基于网络的协同、共享、远程工作和分布式处理技术等已经成为各个领域研究应
随着信息技术的发展,应用软件越来越复杂,导致软件“软件危机”的产生。软件的正确性和可靠性难以保障是“软件危机”中突出的一个问题。“软件工程”的出现与发展对解决“软件
随着企业信息化的迅猛发展,越来越多的企业选择软件管理系统来支持企业中的各种活动,企业管理软件在企业管理中扮演越来越重要的角色。但是随着企业活动的多样化,单一的系统安全
本文针对信息战中无人飞行器嵌入分布控制的高可靠性要求,研究适合异构嵌入分布计算平台的多模式容错技术,为平台可靠性研究奠定了基础。 根据系统的模块化、并行性和自治性
随着计算机技术和通信技术的发展,即时消息技术(Instant Message)越来越受到人们的关注,在企业信息化、电子政务和个人通信等领域得到广泛的应用。在电力监控管理系统越来越复
近年来,移动数据增值业务无论是从用户规模还是业务规模都有了长足发展,随之而来的业务数据管理的需求量也与日俱增。这就对面向移动数据增值业务运营的公司提出了提高自身的业
目前,很多学者都在尝试用不同的方法来求解Job-Shop调度问题。但是由于Job-Shop调度问题本身的复杂性,每种方法都存在着不足之处,如方法比较复杂或解的近优性较差。借鉴操作