基于领域主题的Web信息检索技术研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:Sampan_nb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术的发展,网上的资源成指数级的增长,如何在Internet这样的海量信息资源中迅速搜索和查找到用户感兴趣的信息已成为网络上必不可少的需要。已经有象Google和百度这样成熟的通用Web搜索引擎出现,并在很大程度上满足了用户Web信息检索的需求。目前的通用Web搜索引擎在传统的全文检索技术基础上,更多地涉及到网页数据全面快速的采集、海量网页数据的索引和存储、搜索结果的相关性排序、搜索效率的毫秒级要求、分布式处理和负载均衡、自然语言处理技术等。 通用Web搜索引擎通常难以收集全所有领域和主题的网络信息,即使信息领域和主题收集比较全面,由于领域和主题范围太宽,很难将各领域和主题都做得精确而又专业,从而使得检索结果无用信息太多。基于领域主题的Web搜索引擎则弥补了这一不足,它是就某一特定的专门的主题或领域范围来提供Web信息检索服务的搜索引擎,以其高度目标化和专业化在各类搜索引擎中占据了一席之地,其查询结果具有很高的针对性,因此用户对查询结果的满意度较高。 本论文主要是探讨基于领域主题的WEB信息检索相关的技术问题,围绕着Web页面信息的抓取与处理、中文分词、文本自动分类、网页排序、索引与搜索等关键技术问题展开讨论。 本文的主要贡献是: (1) 研究并提出了一种基于块的不需要复杂机器学习方法而仅采用探试法来获取并识别Web页面主要信息内容块的快速算法,实验证明该算法在Web页面主要内容块的识别方面有着较高的正确率与召回率,并且利用该算法可以去掉对非主要内容块的存储,对存储网页快照和建立索引也会带来可观的外存存储节约。 (2) 基于简化贝叶斯网络模型提出并实现了一种文本分类算法,该算法的学习时间具有多项式的时间复杂度,并且分类的准确率和召回率均高于朴素贝叶斯方法。
其他文献
本文以图灵四级安全操作系统为项目背景,描述了对安全操作系统隐蔽通道分析的研究。本文依据相关信息系统安全评估标准中对安全操作系统隐蔽通道分析的要求,在分析了各类型隐
简单来说,数字签名是附加在数据单元上的一些数据,是对数据单元所作的密码变换。这种数据用以确认数据单元的来源和数据单元的完整性,防止伪造或者抵赖。数字签名是当前网络安全
随着网络的迅速发展,舆情研究面临着新的问题和挑战。网络舆论提供了一个更为全面更为集中的民意反映,且由于其匿名性等特点,能更真实地反映大多数民众对事件的看法。对网络
城市电网是保证城市运营和发展的最重要的基础市政设施,其应急能力是整个城市的基本保证。应急电源是城市电网供电系统有效的应急措施之一,论文将供电可靠性和经济性紧密结合
本文详细介绍探地雷达(GroundPenetrating/ProbingRadar简称GPR)回波信号采集和存储接口板设计的方法、相应的上位机软件编程和成像所应用的技术。数据采集和存储板设计,使用
无线局域网是20世纪90年代计算机网络和无线通信技术相结合的产物,它使用无线信道接入网络,具有安装方便、高数据速率和可移动性等特点,其应用范围越来越广泛。随着无线局域网的
随着网络规模的日益扩大,用于异常发现的传统入侵检测系统并不能简单地应用到大规模的网络环境中。基于报文级别的捕获、还原、匹配的传统入侵检测系统效率无法满足要求。而
随着互联网的迅速发展,多媒体业务也得到了极大的发展。传统的Internet网络是面向非实时的数据通讯而设计的,它仅提供尽力而为的服务方式,在这种服务方式下,所有业务流公平地竞争
SIP协议作为下一代网络最重要协议之一,已被广泛应用于VoIP系统中。为了解决公网IP地址匮乏以及网络安全等问题,企业网一般都使用了NAT和防火墙技术。虽然NAT技术可以很好的
作者分类是按照作者的写作风格将作品分类的过程。作者分类是文本分类的一种。风格特征集合的选择是作者分类的关键问题。 本文尝试了前人提出并受到较为普遍认同的基于标