基于最大公共子图的中文Web文本分类研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:vensen_guo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络信息技术的高速发展,Internet上的Web页面数量呈指数增长,如何有效的组织和处理这些海量信息,如何更好地搜索、过滤和管理这些网络资源,成为一个亟待解决的问题。Web文本挖掘技术就是解决上述问题的一种方法,它借鉴数据挖掘的基本思想和理论方法,从大量半结构化、异构的Web文档的集合中发现潜在的、有价值的知识。Web文本分类是Web文本挖掘的重要技术,是一种快速、有效的组织网上海量信息的关键技术,是Web信息处理的基础,有着很高的研究价值和广泛的应用前景。   本文研究的对象是中文Web文本,目的是提高Web文本分类的精度和速度,主要针对中文Web文本的表示以及分类算法进行了深入地探讨。Web文档包含大量的与主题内容无关的噪音数据,因此本文提出了一种基于网页分块的主题信息自动提取算法。首先对Web文档依据布局标签分块构建文本内容块层次树,然后自底向上遍历层次树,计算每个块节点的语义属性和主题相关度,同时删除主题无关节点,最终通过遍历文本块层次树的最大内容节点路径,提取当前网页的主题信息。实验表明该主题信息提取算法对大多数中文门户网站的主题型网页均有效,适用性比较强。传统的向量空间文本表示方法不能有效表示文本的结构信息,缺乏对文本特征词条上下文环境的考虑,因此本文探讨了Web文档的图表示方法、文档图之间距离度量选择等问题,并在此基础上发展了KNN算法,得到了基于最大公共子图的Web文本分类算法:MCS-KNN算法。MCS-KNN算法为每个Web文档生成表示图,通过计算两个Web文档表示图之间的相似度来计算两者的相似度,进而计算出待分类文档在训练集中的K近邻,根据K近邻的所属类别确定待分类文档的类别。实验表明,MCS-KNN算法分类速度快,精度高,具有比KNN算法更优越的分类性能。
其他文献
随着计算机技术和网络技术的巨大进步,人们的生活、学习、工作方式都发生了巨大的变化。拥有计算机和网络的世界变得方便快捷,但同时也伴随着巨大的安全隐患。越来越多的不法
传统的潜在缺陷模块序列预测模型采用有监督机器学习方法,先前的研究结果表明它们具有较好的性能。然而,这种基于有监督学习方法的缺陷预测模型需要历史缺陷信息才能建模。对新
随着Internet的日益发展与普及,电子信息交换已成为现代经济生活的主要形式之一,它是在任意两个互不信任的主体之间以一种公平的方式来交换电子数据。实现公平电子信息交换的
本研究的目的是为光纤线包的设计与优化提供良好的软件平台。首先研究了光纤缠绕轨迹并给出了简化方程,然后使用Pro/Engineer Wildfire5.0建立了光纤线包几何模型并配合Visual
三维实体建模是计算机视觉的重要研究方向之一,是根据摄像机拍摄得到的二维图像信息来计算三维空间中物体的几何信息,是识别和重建物体的过程。二维图像是三维物体建模的几何特
近几年来,随着移动计算技术和网络技术的迅猛发展,移动学习作为一种全新的学习模式悄然而生。移动学习是一种崭新的远程学习形式,让学习者摆脱时间和空间的限制,真正做到了在任何
云计算的概念被提出来的短短几年间,在学术界和工业界的共同推动下取得了巨大的进展。在这个过程中出现了很多的云计算系统,其中Hadoop平台作为一个开源的系统被许多公司采纳。
SOA(Service Oriented Architecture,面向服务的体系架构)是当前用于构建企业IT支撑平台的主流技术;同时,它也是指导信息化建设的一种创新理念,该理念的核心是“面向服务”,“服务
随着观测仪器设备精密程度以及数据收集能力的大幅度提高,光学天文学得到显著发展,我国LAMOST大规模巡天项目获得海量的巡天数据。但是,目前低质量光谱仍占LAMOST观测数据总量的一半左右。这些光谱表现出明显的质量缺陷,如噪声较大、谱线特征不明显、局部信噪比非常低、连续谱异常、拼接异常、减天光异常等。对这些低质量光谱的处理及研究,对于观测产出率的提高、特殊及稀少天体的发现等方面都具有重要的意义。因此
无线传感器网络的节点经常部署在自然环境相对恶劣或是人员较难到达的区域内,如沙漠、水下等,绝大部分应用场景都不具备架设有线供电设施的条件。在现有技术条件下,传感器节