基于最大公共子图的中文Web文本分类研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户：vensen_guo

【摘要】

：

随着网络信息技术的高速发展,Internet上的Web页面数量呈指数增长,如何有效的组织和处理这些海量信息,如何更好地搜索、过滤和管理这些网络资源,成为一个亟待解决的问题。Web

【作者】

：

赖兴瑞

【机构】

：

厦门大学

【出处】

：

厦门大学

【发表日期】

：

2011年期

【关键词】

：

Web文档汉字文本信息处理 KNN算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着网络信息技术的高速发展,Internet上的Web页面数量呈指数增长,如何有效的组织和处理这些海量信息,如何更好地搜索、过滤和管理这些网络资源,成为一个亟待解决的问题。Web文本挖掘技术就是解决上述问题的一种方法,它借鉴数据挖掘的基本思想和理论方法,从大量半结构化、异构的Web文档的集合中发现潜在的、有价值的知识。Web文本分类是Web文本挖掘的重要技术,是一种快速、有效的组织网上海量信息的关键技术,是Web信息处理的基础,有着很高的研究价值和广泛的应用前景。　　本文研究的对象是中文Web文本,目的是提高Web文本分类的精度和速度,主要针对中文Web文本的表示以及分类算法进行了深入地探讨。Web文档包含大量的与主题内容无关的噪音数据,因此本文提出了一种基于网页分块的主题信息自动提取算法。首先对Web文档依据布局标签分块构建文本内容块层次树,然后自底向上遍历层次树,计算每个块节点的语义属性和主题相关度,同时删除主题无关节点,最终通过遍历文本块层次树的最大内容节点路径,提取当前网页的主题信息。实验表明该主题信息提取算法对大多数中文门户网站的主题型网页均有效,适用性比较强。传统的向量空间文本表示方法不能有效表示文本的结构信息,缺乏对文本特征词条上下文环境的考虑,因此本文探讨了Web文档的图表示方法、文档图之间距离度量选择等问题,并在此基础上发展了KNN算法,得到了基于最大公共子图的Web文本分类算法:MCS-KNN算法。MCS-KNN算法为每个Web文档生成表示图,通过计算两个Web文档表示图之间的相似度来计算两者的相似度,进而计算出待分类文档在训练集中的K近邻,根据K近邻的所属类别确定待分类文档的类别。实验表明,MCS-KNN算法分类速度快,精度高,具有比KNN算法更优越的分类性能。

其他文献

虚拟蜜网中控制算法的研究与改进

随着计算机技术和网络技术的巨大进步,人们的生活、学习、工作方式都发生了巨大的变化。拥有计算机和网络的世界变得方便快捷,但同时也伴随着巨大的安全隐患。越来越多的不法

学位

虚拟蜜网入侵检测k均值聚类算法

基于聚类的潜在缺陷模块序列预测

传统的潜在缺陷模块序列预测模型采用有监督机器学习方法，先前的研究结果表明它们具有较好的性能。然而，这种基于有监督学习方法的缺陷预测模型需要历史缺陷信息才能建模。对新

学位

潜在缺陷模块序列预测模型有监督机器学习源代码聚类方法

乐观太平交换协议形式化逻辑及其自动证明技术

随着Internet的日益发展与普及,电子信息交换已成为现代经济生活的主要形式之一,它是在任意两个互不信任的主体之间以一种公平的方式来交换电子数据。实现公平电子信息交换的

学位

公平交换协议信任逻辑模型检测保尔森归纳法电子支付自动证明

基于有限元的光纤线包计算机辅助设计与优化

本研究的目的是为光纤线包的设计与优化提供良好的软件平台。首先研究了光纤缠绕轨迹并给出了简化方程，然后使用Pro/Engineer Wildfire5.0建立了光纤线包几何模型并配合Visual

学位

光纤线包线包缠绕元件设计计算机技术

基于图像序列的三维实体建模算法研究

三维实体建模是计算机视觉的重要研究方向之一，是根据摄像机拍摄得到的二维图像信息来计算三维空间中物体的几何信息，是识别和重建物体的过程。二维图像是三维物体建模的几何特

学位

摄像机标定束集调整图像序列三维实体建模算法

基于RFID的移动学习系统设计与实现

近几年来，随着移动计算技术和网络技术的迅猛发展，移动学习作为一种全新的学习模式悄然而生。移动学习是一种崭新的远程学习形式，让学习者摆脱时间和空间的限制，真正做到了在任何

学位

移动学习无线射频识别Web服务试题反应理论

基于公平的Hadoop贪心调度算法研究

云计算的概念被提出来的短短几年间，在学术界和工业界的共同推动下取得了巨大的进展。在这个过程中出现了很多的云计算系统，其中Hadoop平台作为一个开源的系统被许多公司采纳。

学位

Hadoop平台作业调度贪心调度算法容错处理并行计算云计算

SOA建模方法研究

SOA(Service Oriented Architecture，面向服务的体系架构)是当前用于构建企业IT支撑平台的主流技术；同时，它也是指导信息化建设的一种创新理念，该理念的核心是“面向服务”，“服务

学位

面向服务体系架构建模方法标准IT资源价值体系

LAMOST低质量光谱交互式分析平台的设计与实现

随着观测仪器设备精密程度以及数据收集能力的大幅度提高,光学天文学得到显著发展,我国LAMOST大规模巡天项目获得海量的巡天数据。但是,目前低质量光谱仍占LAMOST观测数据总量的一半左右。这些光谱表现出明显的质量缺陷,如噪声较大、谱线特征不明显、局部信噪比非常低、连续谱异常、拼接异常、减天光异常等。对这些低质量光谱的处理及研究,对于观测产出率的提高、特殊及稀少天体的发现等方面都具有重要的意义。因此

学位

LAMOST低质量光谱模板匹配光谱分类

移动充电设备能量受限的无线传感器网络充电策略

无线传感器网络的节点经常部署在自然环境相对恶劣或是人员较难到达的区域内,如沙漠、水下等,绝大部分应用场景都不具备架设有线供电设施的条件。在现有技术条件下,传感器节

学位

无线可充电传感器网络充电策略均衡充电能量受限

基于最大公共子图的中文Web文本分类研究

与本文相关的学术论文