内容相关性驱动的Web资源离群点挖掘技术研究与系统实现

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:JK0803_shijiwu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展和普及,人们越来越依赖于网络获取信息。作为海量的信息来源,Web可以看成是一个巨大的数据库,包含着各种各样有价值的信息。但由于Web信息来源极为广泛,信息发布带有很大的随意性,在为用户提供信息的同时,也造成了信息过载和信息污染。对Web资源进行必要的评测,有助于人们快速获取网上高质量的信息。基于内容相关性的Web资源离群点挖掘就是研究如何从内容相关性的角度获取Web内容资源高质量的数据。本文使用Web内容离群点挖掘算法对Web资源内容相关性质量进行量化评测,并实现了一个原型系统。该系统包含两个模块:Web文本内容抽取和Web文本内容离群点挖掘。在第一个模块中,针对新闻网页内容比较集中的特点,本论文采用基于统计的链接密度和链接文本密度的方法对HTML网页的正文进行抽取,并将相关内容集成到一个XML页面中;在第二个模块中,利用N-gram技术对获得的XML文件中各个文档进行建模,再应用文本内容离群点检测算法,检测出文档集中内容不相关的文本,并分析讨论了挖掘结果的合理性和效果。实验结果表明,利用基于统计的链接密度和链接文本密度可以准确地对中英文页面正文内容进行抽取,同时利用基于距离的文本内容离群点检测算法,可以较为有效地发现同类文本集中内容不相关的网页。实验表明本文所实现的Web资源内容相关性质量离群点挖掘系统具有一定的实用价值。
其他文献
本课题主要研究多媒体教学场景中的跟踪问题,以场景中授课教师为跟踪目标,要求实时录制教师授课情况。基于特定的应用场景,课题在单目标、单摄像头,且目标和摄像头都运动的情
随着信息化时代的不断推进,人们对信息化技术的依赖逐渐变大,游客的个性化需求增多,也更倾向于选择去信息化建设完善、能尽量满足他们个性化需求的景区。因此,为了增加景区的
随着互联网的发展,网络信息呈爆炸式的增长,如何快速有效的获取网络信息已成为一个重要的研究问题。文本摘要和关键词抽取技术正是在这样的一个背景下发展起来的,随着信息检
随着互联网的快速发展,网络媒体应运而生,传统媒体公司也随之建立了新闻发布网站。网络传播的快捷性、互动性、开放性等特点使得民众可以快速关注网络上的热点事件,发表看法
程序理解是软件维护的重要阶段,程序员对程序的理解程度直接影响到维护工作的正确性和效率。由于在设计程序时,尤其是使用面向对象方法设计时,功能行为相关的代码通常会被分散在
随着计算机视觉技术的不断发展,立体视觉被广泛应用于虚拟现实、机器人导航、工业检测等领域。立体匹配是立体视觉中的关键技术之一,对立体视觉的发展具有举足轻重的作用,本文针
协同式专家系统是指能综合若干个相近领域或一个领域多个方面知识的多专家系统。电站新建机组调试需要多个专业有多年实际调试经验的领域专家协作完成,将协同式专家系统应用到
图像处理和图像通信是信号处理和现代通信的重要组成部分,与人们的关系日益密切。图像去噪是数字图像处理的一个重要研究方向,是对图像进行后续利用的基础,而数学在图像处理
随着互联网技术的不断发展和应用的不断深入,在线可用的信息呈爆炸式增长。当在线的信息持续增长时,现有的搜索引擎的不足,比如系统返回用户的文档太多;用户需要花费时间和精
膏药作为中药的四大剂型之一,有着悠久的历史,在治疗一些疾病有很好的效果。本文是以科技部项目“中药新型经皮给药系统关键技术与评价”为背景研制一套“基于传感器网络技术的贴膏剂智能成型设备”。从而形成具有自主知识产权的专利技术,对中药外用贴剂的生产工艺做出重大革新,有利于对我国传统中药贴剂生产技术的稳步推进和技术标准的建立。进一步提升中药经皮给药系统的科技含量和产品标准,促进中药经皮给药的标准化、工程化