搜索引擎中网页分类和网页净化的研究与实现

来源 :武汉理工大学 | 被引量 : 3次 | 上传用户:qween
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会的进步和科技的飞速发展,人们的生活已经越来越离不开网络了,为了满足人们日益增长的需求,海量的网页信息也随之产生了,如何从这些海量的信息中找到人们所需要的信息变得越来越困难,搜索引擎正是为了解决这一难题而产生的。用户浏览的网页可以从内容展现形式上分为目录型网页(hub)、主题型网页(topic)和图片型网页(picture)这三类,现在将视频型网页也归类为图片型网页。这三种类型的网页在展现形式上的差异,直接影响到信息提取的方法也有所不同,对于目录型网页,主要是提取中间的链接信息;而对于主题型网页则是提取主题内容;图片型网页则主要是图片和视频。如何能对网页进行快速、准确的分类是搜索引擎在预处理阶段必须完成的工作。现在的网页在分类上呈现出模糊化,许多目录型的网页中间包含着大量的说明性文字,使其看起来跟主题型网页又有几分类似,这对网页分类又是一个巨大的挑战。搜索引擎在预处理阶段最主要的目的是信息提取,由于网页是一种半结构化的数据,在信息的提取过程中充满着各种挑战。为了页面的内容丰富、布局美观还有商业因素的惨杂,使得网页一般都包含着无用的链接、广告信息、版权信息等。这些信息严重影响到了网页内容提取的准确度,进而影响到了返回给用户检索结果的准确性,因此在进行信息的提取过程中必须进行去噪处理。如何提高搜索引擎的搜索质量和搜索效率一直都是人们不断研究和努力的方向,本文正是在研究搜索引擎的预处理过程中,着重研究了网页分类和网页净化这两点,研究的主要内容有:(1)提出并实现了一种网页分类的方法,该算法主要是对目录型和主题型的网页进行分类,通过一组多特征的启发式的规则去甄别网页的类型,实验证明该算法在网页分类上具有良好的效果。(2)采用网页进行分块的思想,通过观察统计网页的主题内容的特点,提出了通过计算该结构块对整个网页类型的支持率来判断该块是否为主题块,同时针对不规范的网页中主题内容离散的特点,针对性的采用了文本间相似度比较来判断该块是否为主题块,实验证明该算法是有效的。
其他文献
近年来随着传感器技术、嵌入式技术、分布式信息处理技术和无线通信等信息技术的快速发展,无线传感器网络成为物联网研究领域中的一个热点,得到了广泛的关注和应用。无线传感器
语义网,又称为“下一代互联网”,是对当前互联网的一个延伸,其目标是实现机器能够理解网络信息,使人与机器交流成为现实。本体是实现语义网的主要支撑,用于在语义和知识层次
数据库系统的查询优化技术是提高数据库系统效率的重要技术。当前由江西师范大学省高性能重点实验室薛锦云教授团队研发的通用高可靠软件开发平台(PAR平台)将关系代数嵌入抽
有效的软件测试是保证软件质量的关键一步,测试是软件开发过程中必不可少的阶段,测试结果的好坏与软件产品的质量直接相关。自动化测试减少了测试人员手工测试的工作量,提高了测
数据图是由若干给定的点及连接两点的线所构成的图形,通常用来描述事物之间的某种特定关系,用点代表事物,用连接两点的线表示相应两个事物间的关系。以往的学者提出了许多数
社区是城市的基本构成元素,也是城市居民的生活空间与发展载体,社区智慧化程度集中反映着城市的智慧水平。“智慧社区”是城市现代化发展进程中的一项重要成果,为城市社区的
设计和实现磁共振图像纹理分析平台,探索基于磁共振图像纹理分析方法对肝脏肿瘤恶性程度进行恶性程度轻级重级分类的算法,可为肝脏肿瘤恶性程度轻重级分类提供新的无创无毒副作
本课题来源于某集团网络办公自动化系统(Office Automation System,简称为OA系统)集团化改造项目。因组成集团公司的各分公司(将集团机关视作一个分公司)地理分布不同、业务
伴随物联网技术迅速发展,作为物联网重要技术之一的无线射频识别技术(Radio Frequency Identification, RFID)也越来越得到人们的关注。RFID技术是一种很强大的自动识别技术,
图像融合是由信息融合发展而来的,是多传感器信息融合中可视信息的处理,根据互补性,把来自多个传感器的数据信息综合起来,得到一个信息更丰富的图像。近年来,图像融合技术在