面向HTML网页资源的网页主题信息提取研究

来源 :中国人民大学 | 被引量 : 0次 | 上传用户:xiawa371236585
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展与普及,Web资源成为人们获取信息的重要来源,而且相当多的资源只有通过互联网才能获得(例如未发表的论文、研究报告等)。但是随着web资源的急剧增加,如何充分利用web资源成为一件极具挑战的事情。设计合适的工具,能够根据用户的需求把web中的相关资源返回给用户,就成为一个很重要的研究课题。本文的工作是提出一种面向主题Web信息服务的架构及实现方案,设计一个基于主题的主要面向HTML网页资源的Web信息服务系统。  本文的研究目标是在中国人民大学经济学学科知识检索系统的基础上设计一个基于主题的主要面向HTML网页资源的Web信息服务系统,用户可以根据自己的研究需要,定制相应的主题服务,系统则按定制的主题将web资源尤其是Html网页资源推荐给用户。该系统在实质上是一个用户驱动的个性化集成定制系统,提供以网络资源为主的资源集合的个性化定制功能,其目的是根据用户的需求特征,通过用户定制、系统推荐和推送功能,为用户提供个性化的信息服务,减少由于信息过载对用户造成的困扰。  该系统涉及到的主要的研究内容包括以下几个方面:  1.主题描述:对主题给出具体而精确的定义,研究主题描述的方式,选择一种适合的方式描述主题,既可以与原有系统相融合,便于用户使用,不增加用户的负担,又可以对不同主题有较好的区分度并便于扩展,同时又便于主题爬虫工作。  2.用户需求描述:对用户的需求进行个性化的扩展和规范,将用户的模糊的、直觉上的信息需求通过本文的系统加以扩充和修正,得到一个较为清晰和规范的用户需求模型。  3.主题爬虫:针对用户的不同需求和不同资源类型研究主题爬虫的实现方式,既需要有较高的查准率,又要有较高的查全率,并保证主题不发生偏移。  4.网页分析:分析抓取到的网页资源的结构,在此基础上通过某种高效的算法确定网页中的主要信息块。  5.信息抽取:给出主题信息的详细而精确的定义。研究文本信息抽取技术,特别针对包含信息量大、格式相对规范的网页资源,提出一种有效的主题信息抽取算法。  6.资源展示:一方面设计一个集成的、易扩展的网络资源抓取系统的模型;另一方面针对经济学学科知识检索系统,选择一种对用户友好的推荐资源展示界面。  本文研究的重点是网络资源的获取技术和网页主题信息的提取技术,主要做了以下两方面的工作:  一是构建了一种集成式的、服务式的、易扩展的网络资源抓取系统模型,提供了对类型繁多的网络资源进行抓取的统一接口。这种模型是一对多的,当产生了一种新的资源类型的获取需求时,通过注册或安装插件的方式,就可以生成面向这种新资源的一个抓取系统。这些新生成的抓取系统之间是松耦合的,通过注册器中参数的设定和控制来进行彼此之间的通信和资源共享。  二是提出了一种对HTML网页资源进行抓取和分析、进而提取主题信息的方法。具体又可分为网页分块算法和确定主块算法。一方面改进了以标签作为分块标识的网页分块算法,既扩充了分块算法的适用范围,又消除了由于HTML标签嵌套而引起的信息遗失的问题。另一方面提出了一种基于分块基础上的网页主块识别技术,给出了主要针对主题型网页和目录型网页的确定网页主块算法。实验证明,这种主块确定算法具有较高的精确度和实用性。
其他文献
传统高速互连网络中,采用基于客户机/服务器和消息传递的通信模型。在这种模型中,不仅需要软件为通信双方建立起连接,数据的传输过程也需要调用网络协议栈、文件系统以及存储管
安全多方计算是近年来发展起来的一个研究方向,是密码学的重要分支,许多基础的密码学问题比如认证、密钥交换、签名等都可以用安全多方计算协议来解决。而秘密匹配问题是安全多
异常点挖掘,是一种寻找给定数据集中潜在反常对象的重要数据挖掘技术,它在网络入侵检测,诈骗行为分析与预警,以及病症分析等领域中有着广泛的应用。异常点挖掘同分类技术、聚类技
城市地铁系统大多是在半封闭的空间运行,人员密集,出入口较少,通风照明条件有限,疏散线路复杂。一旦站点发生突发事件(比如,恐怖袭击、乘客坠亡、人员踩踏等),容易造成严重的人员伤亡
互联网图像的爆炸性增长为用户提供了丰富的图像资源,如何从海量的图像资源中获取自己感兴趣的图像成为迫切需要解决的问题,基于内容的图像检索是解决上述问题的有效手段。有别
社交网络依托于互联网的广泛应用,不仅拥有巨大的用户群体,还能够超越地理位置限制、时间限制和社会角色限制来拉近用户之间的距离,使得沟通成本更低、时效性更强,因此成为人们交
无线传感器网络被认为是21世纪最重要的技术之一,而无线传感器网络操作系统是无线传感器网络应用的重要支撑技术。无线传感器网络操作系统的设计须满足内核代码量小、低功耗、
网格资源具有异构性和多态性,且网格应用的服务对象对服务的服务质量有特定的要求。SerivceBSP模型是在新的网格环境下提出的编程模型。基于ServiceBSP模型编写的应用程序(以
信息技术飞速发展,社会不断进步,人们对智能化和节能家用电器的需求日益凸现,智能家庭网络系统应运而生。智能家庭网络技术综合了操作系统、Internet接入、微电子等多门学科,
在当今信息化时代,人们对教育提出了新的要求,基于Web的网络学习系统作为一种新的教育方式备受社会的关注。网络环境以其资源的丰富性、交互的实时和广域性、学习方式的灵活性
学位论文面向HTML网页资源的网页主题信息提取研究发表于2008年期中国人民大学作者苏哲,本篇论文的所有权归原作者苏哲所有,如果您对本文有版权争议,可与客服联系进行内容授权或下架。