垂直搜索引擎主题特征提取及相关度算法研究

来源 :长安大学 | 被引量 : 0次 | 上传用户:ylzhou40
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
搜索引擎是人们获取海量网络信息的首要工具,是网络研究和应用的关键内容。目前随着Internet信息的爆炸增长以及信息多元化的发展,快速有效地获取需要的相关信息变得越来越困难,综合性的搜索引擎已不能适应用户对信息检索的准确性要求,专业化的、面向主题的垂直搜索引擎正成为研究的热点与发展趋势。本文重点研究中文Web主题信息获取与检索技术,设计和实现了一个以计算机专业技术文献信息采集为核心的垂直搜索引擎CTLS(Computer Technical LiteratureSearcher)。论文分析了搜索引擎国内外目前的研究现状及发展趋势,探讨了专业搜索引擎目前主要存在的问题及现行专业搜索引擎所采用的搜索策略存在的缺陷。针对中文分词中歧义字段的切分问题,提出一种对中文句子进行分词预处理的方法,在预处理的基础上实现了一种改进的MM算法,使分词系统在机械分词阶段具有比MM算法更好的效果。针对垂直搜索引擎网络蜘蛛搜索路径的选择策略问题,提出了非贪婪的V-Page-Rank搜索策略,指引网络蜘蛛动态调整下载方向,优先下载可能包含有相关主题内容的页面,有效地实现搜索引擎的专业化。在信息检索方面,提出了基于向量空间模型的自适应分类算法IVSM对网页从内容和结构两方面进行相关性过滤。论文提出了基于网页分块的爬行算法。解决了网页多主题的困难,并有效地去除了网页中的噪音信息,使得网络爬行的启发信息能准确地被收集。提出了一种比较理想的垂直搜索引擎设计方案,并实现了一个面向计算机主题的垂直搜索引擎系统CTLS。研究并设计出了适合专业资源采集的分布式Robot体系结构。最后总结了面向计算机专业技术主题的垂直搜索引擎系统的研究和开发经验,并指出了系统的应用前景以及下一步研究的方向。
其他文献
随着身份识别重要性的不断提高,指纹识别的应用领域日益广泛:电脑识别、信用卡识别、个人通讯设备识别、考勤、考试、政府的福利发放等方面都需要用到指纹识别。指纹识别是一
语义检索作为一种新的信息检索技术,它可以在知识理解和知识推理的基础上实现对信息资源的准确、全面的检索。对语义检索的研究不仅仅在信息管理领域,还包括人工智能、互联网等
反求工程中,由三维测距仪获取的点云常常存在空洞,给后期的几何建模工作带来很大的困难。本文在已有的边界提取与曲面重建方法的基础上,提出了一种基于点模型的点云空洞检测与修
近年来,Web服务以其协议标准化、低耦合以及平台无关性的优点,在应用集成方面得到了迅猛的发展。随之而来的问题是,如何在海量的Web服务中找到合适的服务,即服务发现,已经成为Web
企业信息门户作为一种信息和应用整合模式,能够有效地整合企业的信息资源和应用系统。它为企业的员工、客户、合作伙伴等提供了一个基于Web的统一平台,在这个平台上,企业门户
语音识别主要指让机器听懂人的语言,即在各种情况下,准确地识别出语音的内容,从而根据其信息,执行人的各种意图。语音识别中,端点检测占有非常重要的地位。在低信噪比环境下,
随着信息时代的到来,网络上的数据呈指数级的增加,由于数据的自治性、异构性和分布性特点,造成“信息孤岛”,数据的复用和共享大大地下降。关联数据的出现解决了这一难题。旅
流媒体以其特有的娱乐性和交互性正在成为推动未来带宽应用的主动力。如何在Internet网络上提供大规模的流媒体内容分发一直是近十年多里流媒体研究领域的核心问题。IP组播让
本文以研究和实现一个易于扩展和维护的具有快速部署能力的银行综合业务系统开发平台为主要目的,总结了平台中的核心技术-MVC模式重用和数据驱动技术,重点介绍了基于设计模式
离群点识别和聚类分析是数据挖掘研究的重要方面,基于离群点分析的各种数据挖掘算法的研究已经成为研究热门方向。但是目前大多数的离群点分析算法只是针对于静态数据集的操