【摘 要】
:
随着信息时代的深入人心与互联网技术的飞跃式发展,人们已经把从网络信息的海洋中搜寻出对自己有用的信息作为最主要的信息获取途径,互联网中的搜索服务在人们日常工作和生活
论文部分内容阅读
随着信息时代的深入人心与互联网技术的飞跃式发展,人们已经把从网络信息的海洋中搜寻出对自己有用的信息作为最主要的信息获取途径,互联网中的搜索服务在人们日常工作和生活中发挥着无可取代的作用。人们利用百度、谷歌、雅虎、必应等搜索引擎在互联网中寻找信息,这类通用搜索引擎已经极大地缩短了我们定位有用信息的时间,但对于搜索特定主题的需求来说,通用搜索引擎返回的结果往往无序、分散。而垂直搜索引擎旨在为用户提供特定主题的相关服务与信息,满足用户特定需求。为了制定造福社会和服务大众的政策文件,决策者不仅要把握社会需求,而且需要遍览当前已出台文件为制定新政策提供依据。因此,面向政策信息的垂直搜索引擎能够够满足政策制定者的需要。本文以我国人社领域各级政府部门的官方网站作为实验数据,在对垂直搜索引擎关键技术进行深入研究的基础上,结合用户需求,完成了一个面向政策信息的垂直搜索引擎。本文详细阐述了政策信息垂直搜索引擎的相关理论基础和研究过程。首先,本文介绍了完成该垂直搜索引擎所利用的关键技术即主题爬虫技术、网页信息抽取技术、语句相似度比较、全文检索技术等;然后在开源网络爬虫框架WebMagic的基础上,针对某一类网站集合设计了专用的解析器;本文还提出了基于语义相似度的政策树生长模型;最后,本文详细阐述了政策信息垂直搜索引擎的实现,并进行了系统测试。
其他文献
1988年蔡少棠教授提出了细胞神经网络(Cellular neutral network,简称CNN),这种网络结合了人工神经网络和细胞自动机的优点。CNN是一种局部互联的神经网络变体,整个网络由大规
因为没有强大的数据挖掘工具协助人们去理解数据,挖掘潜在的有效信息。海量未被挖掘数据中所潜藏的有效信息催促着数据挖掘技术的诞生。聚类分析是最为有力的数据挖掘工具,它
移动Ad Hoc网络是一组带有无线收发装置的具有路由功能的节点组成的无中心、自组织的多跳无线网络,在军事、偏远野外、救灾抢险等领域有极为广泛的用途。由于移动终端本身由电
数字阅读已然成为全民阅读的主流方式之一。海量电子图书的有序整理、存储及提供更为友好的搜索、阅读体验成为一个重大的挑战。元数据是解决该难题的关键。完备的电子图书元
数据挖掘应用广泛,关联规则挖掘已成为数据挖掘领域的一个重要研究方向。然而,大部分关联规则的表示方法都需要用户在数据挖掘领域具备一定的专业知识才能理解,不利于普通用
数字网络与多媒体技术的高速发展,使得数字图像和视频在信息传递的媒介中占的比重越来越大。图像增强和图像处理的方法层出不穷,图像色彩传递是常见的图像处理技术,它将一幅图像
伴随着经济快速发展,城市化规模不断扩大、交通运输量需求增大。作为绿色环保的城市轨道交通,因其准时、快捷,正受到大、中型城市的青睐。轨交客流预测是城市轨道交通建设的
某科技集团公司随着企业的发展,产业链的扩张,面对全球化的布局,提出了“两地研发,三区设计制造,全球组装交货”的全球化布局策略,使企业从20世纪末开始,进入了高速发展的轨
图像匹配就是寻找不同时间、不同传感器或不同条件下(天候、照度、摄像位置和角度等)获取的两幅或多幅图像之间相同部分对应关系的过程,它已经被广泛地应用于遥感数据分析、计
21世纪信息技术的飞速发展,带动了全球信息网络化革命的迅猛发展。全球信息网络的普及与共享给人们的日常生活带来了不小的便捷。除此以外,以因特网为主体的信息高速公路已经渗