基于EM-Naive Bayes的中文Web信息分类技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:lawfocus
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
WWW的出现导致网站上的文本数量成指数级增长,因此如何自动处理这些海量联机文本成为目前重要的研究课题.自动文本分类是文本信息处理的一个重要环节.在我们的研究中,完整地实现了一个基于EM-Naive Bayes方法的中文网页自动分类系统.它可以自动完成Web页到纯文本文件的转换、特征词表的建立和统计工作,并根据训练集中类别体系及其所含文本的设定自动完成训练过程.经过训练的分类器可用于分类未知文本,给出其类别标号或自动在测试集上完成对分类器的评测.该文提出了一个针对特征提取算法的量化评测标准-QS Value,并使用该标准对现有的各种特征提取算法和分类算法分别进行评测,分析总结了它们的效果和特点.在评测结果的分析中,总结出了特征提取原则,并根据该原则提出了一个新的特征提取算法-GP特征提取算法,对该方法完成了评测,并讨论了它相比于其他算法的特点.该文在特征独立性假设基础上,讨论了Naive Bayes分类器的原理,以及训练和应用Naive Bayes分类器进行分类的问题.通过EM算法(期望值最大算法),使分类器自动增加训练量,以得到较为完备的训练文本库;从而扩展了Naive Bayes分类器的应用,提高了它的分类精度.实验数据表明,该EM-Naive Bayes分类器的分类精确度封闭测试最高为87.5%,开放测试最高为73.8%(见表6-4、6-5),是一个比较实用的分类器.
其他文献
该文结合分布式虚拟环境,从实际需求出发,对虚拟环境中的实体进行了深入研究,在此基础上设计并实现了一个可视化的虚拟实体开发工具,为实体仿真开发者提供软件支持.论文的工
随着计算机网络技术、多媒体技术和通讯技术的快速发展,远程医疗系统得到了广泛的应用.远程医疗监护作为远程医疗中的一个重要组成部分,是现今医疗系统计算机应用中非常重要
该文所描述的独立式故障注入设备就是一套主要针对星载高可靠计算机系统软硬件综合测试的系统.该设备可在目标系统微处理器管脚上注入可控故障,并对目标系统反馈信息进行准确
近年来,互联网在国际上得到了长足的发展,但网络本身的安全性问题也日显突出,网络安全的一个主要威胁就是通过网络对信息系统的入侵.该文根据网络安全的需要并基于CVE的特征,
网络安全问题的日益突出对入侵检测技术提出了更高的要求,然而现有的入侵检测技术面对攻击技术的飞速变化仍然存在一定的缺陷.在这种情况下,该文致力于研究一种新型的入侵检
普适计算要求用户随时随地进行计算,实现计算在不同工作环境间的无缝移动。同一信息设备要工作于不同环境,必须要动态适应环境的变化。为解决该问题,本文提出了一种用于局域网环
该文依托国家863计划重点项目"软件测试技术及软件测试平台"中的子项目--软件测试结果分析与度量工具,分析北航软件所经过10多年成功开发的SafePro系列软件测试与分析工具,使
计算机仿真器目前正在得到广泛的应用.通过对计算机系统硬件的仿真,它能够辅助对计算机体系结构的研究,支持新型硬件和系统软件的并行开发,替换老式计算机系统中的硬件而保证
随着网络规模的急剧膨胀和应用类型的持续丰富,作为数据中心网络核心的交换机,承载功能不断扩展,使得交换机数据转发单元已经变得臃肿不堪。交换机厂商出于自身技术和市场占
在认知无线电传感器网络中,由于多数感知节点采用电池供电,因此,能量和频谱资源都是该网络的短缺资源,需要高效利用。认知无线电传感器网络通过频谱感知,保障授权用户的通信