基于多特征抽取的中文Web文档分类

来源 :南京大学 | 被引量 : 0次 | 上传用户:zyq201314
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今,海量的Web页面构成了互联网时代最重要的信息资源。为了有效地组织和分析这些海量的信息资源,人们希望能够实现对Web页面的自动分类。然而,现有的文档分类方法大多是面向传统文档(即平面文档,flat text)的,不能直接用于Web页面的分类。这是因为大多数Web页面是半结构化的HTML文档,其中含有丰富的结构、超链等信息,若对Web文档也采取传统文档的单特征抽取,很难充分表达Web文档的丰富特征。因此,结合Web文档自身的特点对其进行多特征的抽取可能是非常必要且有意义的。基于这样的考虑,本文通过分析Web页面中的元数据、超链接结构和页面结构,对Web文档进行了多种特征的抽取。主要工作如下: 1.对页面中的元数据,我们只关心<Meta>元素和<Title>元素。考虑到<Meta>元素的可信度不是太高,我们要对<Meta>元素作检查,同时,抽取页面中的一部分高频词来补充Meta keywords。 2.在对超链接结构的分析中,我们首先区分了4种不同类型的超链接,继而提出了在超链接过滤基础上的链接相似度计算,最后得到结合链接相似度和锚文本的Web文档表示。 3.在对页面结构的分析中,我们同时区分了不同类型的页面和超链接,通过构造一棵简化的标签树,使用以正文块为中心的权值传递规则计算主题相关超链块的权重。最后给出了结合页面结构的Web文档表示。 在对Web文档进行多特征抽取的基础之上,本文给出了Web文档的6种表示方法,并使用NB、kNN、SVM等3种分类算法对这6种表示方法的优劣进行了评估。实验表明,与仅仅使用单一特征的表示方法相比较,有效地结合多种特征会在一定程度上改善Web文档的分类效果。
其他文献
计算机群集是一种把多台计算机组织起来,通过统一的资源整合与任务调度,模拟成一台功能更为强大的机器,通过分布式计算来协同完成各种任务的技术。随着计算机硬件性能的提高,群集
信息隐藏是保密通信研究的核心领域,它的目的是隐敝重要信息,不让人察觉到重要信息的存在。信息隐藏的实质就是将一块信息隐藏于另一块信息。对于图像信息隐藏,最关心的问题是使
学位
体育视频摘要技术是近年来多媒体领域内的一个研究热点,它有着巨大的应用前景,是许多新型视频应用技术的关键和基础。体育视频摘要技术具有广泛的应用前景,如视频检索,视频点播,视
学位
以图像格式出现垃圾邮件是新近出现的一种垃圾邮件的表现形式,甄别这样的垃圾邮件是一项难度较大,而极具意义的研究课题,它涉及到图像处理、模式识别、计算机视觉、人工智能等多
协同计算是指计算机技术支持的环境中,一个群体通过协同开展的广义计算活动来解决某个复杂问题的过程,它的有效开展在一定程度上依赖于协同理论和技术。作为一种实现过程自动化
由于历史的原因导致了海峡两岸四地存在一简一繁两种文字制度。近年来海峡两岸日趋广泛和深入的交流与合作,导致了对简繁转换系统的迫切需求,现有的简繁转换系统都存在这样或者
学位
在软件开发质量亟待提高的要求下,开发机构迫于市场的压力必须取得ISO9000质量认证并遵循CMM(Capability Maturity Model,能力成熟度模型)来改进自己的开发过程。解决此问题的
随着社会的发展,越来越多的人类行为需要依赖网络来进行,我们正在进入以网络为主的新时代。网络在为大家提供服务的同时,也为黑客入侵、病毒破坏、网络窃听、恶意扫描等等提供了
在集成电路生产领域,由于半导体工艺的发展,传统的RTL级电路设计方法难以应对制造技术的飞速发展,这就要求人们提升设计的抽象层次,在高层次进行设计。在较高的抽象层,要设计的对
学位
学位