风险主题搜索引擎相关技术的研究与应用

来源 :西北大学 | 被引量 : 0次 | 上传用户:wingoH
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
主题搜索引擎是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合。其中的关键技术包括中文分词、主题爬虫、索引、分布式存储等,本文重点研究网络资源的爬虫和索引的主题搜索技术,具有重要的应用价值。主要工作包括:1.提出了一种基于内容和链接分析相结合计算主题相关度的搜索策略。基于Web超链接评价算法考虑了链接结构和页面之间的引用关系,但忽略了页面与主题的相关性。基于内容评价的算法只注重文本在主题搜索中的重要性,而忽略了Web结构的作用。综合的搜索策略利用基于内容的评价来提高搜索内容与主题的相关度,同时利用基于链接结构的评价来提高主题资源搜索的覆盖率。2.改进了Shark-search算法。从URL队列维护和检索时间的角度出发进行算法的改进,提高了Shark-search算法的时空效率,在主题相似度计算方法上应用了向量空间模型;在URL与主题的相关性判定中,综合运用了网页文本内容和Web结构图的启发策略,从待访问网站的时间性能因素出发,改进了PageRank算法。3.给出了基于改进倒排表的索引器设计方案,从索引文件本身的结构出发进行改进,采用分级的倒排表索引组织结构,提高了索引创建的效率。在索引更新部分设计了索引器的批量索引方法与增量索引方法,实现了索引文档的动态更新。将改进后的算法与基于Nutch的索引技术相结合,在此基础上实现了一个风险主题搜索引擎索引的建立与维护。4.基于开源项目Nutch,设计并实现了一个风险主题搜索引擎,把自己建立的主题搜索引擎查询结果和网站现有的搜索结果进行比较分析,证明了系统可以为用户提供完整准确的风险主题信息查询服务。本课题得到了“十一五”国家科技支撑计划重点项目——“综合风险防范(IRG)关键技术研究与示范”(2006BAD20B02)支持。
其他文献
随着激光扫描技术和组合定位定姿技术的不断发展,快速获取大场景三维信息已经成为现实。车载移动激光扫描系统以其独特的系统优势,能够快速获取大范围场景的高密度、高精度以及
无线传感器网络具有广泛的应用背景,目前已经发展成为一个重要的计算平台。但是,无线传感器网络自身的特点使其也面临许多问题。如何降低并均衡节点功耗,并且在满足网络覆盖
随着信息技术的发展,当前计算环境正发生着深刻的变革。从分布式移动计算进入到无处不在的网格计算再到当前的云计算是计算发展的必然趋势。 异构环境固有的内在复杂性对当
随着计算机网络技术的发展,计算机之间的安全通信越来越受到人们重视。但传统专用网需要依赖具体硬件设备来实现,虽然在传输上是比较可靠和安全的,但是对于大多数公司和个人
随着高分辨率数码设备和海量存储系统的普及以及网络传输带宽的增加,图像数据正以指数级的速度增长。如何有效管理如此大规模的海量图像数据库,以便用户可以快速而有效地找到
随着科学技术的发展,计算机和信息技术全方位、多角度冲击着社会生活的各个层面,深刻地影响着全球政治、经济、法律以及人们的生活。与此同时,与计算机和网络相关的各类纠纷日渐
学位
随着Internet的不断发展,网络技术给人们的工作和生活带来种种便捷,但同时也带来许多安全威胁。在与攻击者不断斗争的过程中,众多安全机构研发了许多安全产品。然而传统的安全技
在P2P流媒体系统中,多播日益受到研究者的关注。多播的一个重要问题在于多播路径的确定,通常是构建一棵以源节点为根,包含所有参与多播节点的生成树。多播路由是系统中网络层
近年来,随着运动捕获技术的发展,大量的具有较强真实感的人体运动捕获数据被生成并广泛地应用于计算机动画制作的各个领域。但随之而起的问题是如何更方便、高效地利用运动捕
随着视频搜索技术的发展,基于内容的视频搜索近年来受到越来越多的学者关注。通用视频索引往往只使用视频图片的低层特征,对图片内容描述不够充分,搜索结果不太理想。为解决