Web全文信息检索系统的研究与实现

来源 :湖南大学 | 被引量 : 0次 | 上传用户:todaynow
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的发展和Web资源的丰富,利用Web全文信息检索系统来获取所需信息已经成为人们日常生活的重要组成部分,用户也越来越关注如何能够更加准确、高效地查找信息。本文对Web信息检索和系统实现的相关理论与技术作了介绍,对信息检索在Web全文信息检索中的应用进行了较深入的实践。本文从提高Web信息检索的针对性和聚焦度出发,提出并实现了一种基于DOM的中文内容网页视觉分块算法DVCPS。此算法结合HTML网页的结构和用户的视觉特征进行分析,在规则集和策略的指导下建立DOM树,进行不同语义块的分块解析。为提高Web信息检索的效率,加强系统与用户的动态交互,本文改进了一种适合网页在线聚类的Lingo算法,加强了算法的完备性,降低了部分情况下的时间复杂度。该聚类算法基于潜在语义分析理论,利用检索结果的摘要进行潜在概念的获取并作为聚类描述,通过词、短语、摘要构建相关矩阵,进行奇异值分解和相似度计算,实现了网页在线聚类。本文设计并实现了一个Web全文信息检索系统,介绍了系统的设计框架和主要组成模块的实现技术,并改进了Lucene的评分方法用于Web全文信息检索,对基于ICTCLAS的词索引和字索引进行了查询对比。系统对DVCPS算法和改进的Lingo算法进行了应用,实验证明分块算法提高了Web信息检索的针对性和聚焦度,网页在线聚类较好地改善了Web信息检索的效率,加强了系统与用户的交互。
其他文献
电子邮件已经成为人们日常生活中通信、交流的重要手段之一,但垃圾邮件的泛滥已带来严重后果,有效地区分合法邮件和垃圾邮件成为一项紧迫的任务。近年来,有关垃圾邮件过滤技
粒度计算是信息处理的一种新的概念和计算范式,覆盖了所有有关粒度的理论、方法、技术和工具的研究。它是词计算理论、粗糙集理论、商空间理论、区间计算等的超集,也是软计算
随着计算机网络技术的发展和普及,信息化己经深入到社会的各行各业,电子政务是当前我国信息化工作的重点,各级政府都在建立自己的电子政务系统。要取得电子政务系统的成功,必
随着网络技术的迅猛发展和各种应用的广泛开展,网络信息服务的基本平台——网络服务器正面临着两方面挑战:负载的不断增加和负载的多样性。集群系统凭借其在可靠性、高性能、
世界卫生组织(WHO)和国际联合会(IDF)认为糖尿病是21世纪最有挑战性的医疗保健。糖尿病的并发症和死亡率和经济挑战将影响个人,家庭,企业甚至整个社会。在沙特阿拉伯1980年的经
随着互联网的飞速发展,互联网已经成为一个巨大的知识库。为了有效地利用互联网上的信息,信息抽取技术应运而生。信息抽取技术属于人工智能的一个分支。使用信息抽取技术可以人
近年来,随着我国正式进入WTO,如何提高国有企业的竞争力已经成为了各方面关注的焦点。很多企业都已经认识到,MIS的建立可以提高各部门业务工作的效率,能够带来明显的经济效益
异构数据源集成是实现企业应用集成的关键,是解决网络条件下“信息孤岛”问题的有效途径。 随着计算机和网络技术的发展,企事业单位都陆续建成一些应用信息系统。由于各部
随着基于网络的信息服务系统规模尺度和复杂程度的快速增加,信息服务的部署和运行不可避免会受到异构网络服务能力差异、软硬件资源失效与性能退化、用户访问行为不确定以及外
近年来,随着计算机网络的发展,网络技术不断涌现出新的技术和发展方向,从最初的HTTP, FTP, SMTP等协议到后期的HTTPS, WEB2.0,云计算:从最初单纯的C/S模式到后来的P2P网络模型