基于Web文本信息的智能检索系统的设计与实现

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:qq243396832
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的发展和网络应用的日益广泛,Internet已经成为了人们获取信息资源和进行信息交流的一个重要途径,与此同时,Web信息也日益增长。如何从海量的互联网信息中找到自己所需要的信息,成为了互联网发展的一大难题。虽然传统搜索引擎的出现极大地提高了网络信息的检索速度,在一定程度上解决了这个问题,但还是无法满足人们想要准确获取信息的需求。因而对搜索引擎智能化的技术研究有着重要的现实意义。本文通过研究搜索引擎的技术框架和智能信息检索的主要技术方案,针对传统搜索引擎存在的不足,利用开源软件Lucene和Nutch,设计和实现了基于Web的文本信息的智能检索系统。本论文所做的主要工作如下:(1)在对信息检索的模型理论和搜索引擎的综合技术充分了解的基础上,针对传统搜索引擎存在的不足,详细分析了自然语言理解技术、基于Agent的智能信息检索、基于本体的智能信息检索和网页相关性研究,并对PageRank和HIT算法进行优劣对比,优化PageRank算法。(2)基于Lucene和Nutch搜索引擎智能化的实现。Lucene是Nutch内核的重要组成部分,从对Nutch的实现效果来看,Nutch的工作原理和当前商业搜索引擎的工作原理是一样的,也包含了其他技术要点,包括网页快照、网页详细信息等。利用语义分析和智能Agent的相关知识,从本地文档和数据库建立索引,建立计算机所能理解的“知识”,从而使信息检索更加智能化。(3)实验改进。Nutch原型的Crawl部分还有很多局限性,需要进行多部分的修改,改进的内容包括Crawl无法重复抓取同一个网站和不能自动更新索引的问题。中文分词的重要性不言而喻,由于Nutch自带的分词器对中文支持很弱,所以我们引入了庖丁解牛分词,并取得较好的效果。用户体验设计的修改,本论文的用户体验设计主要针对关键词的推荐和输入框的智能提示。本论文的研究内容将为智能化搜索引擎的设计方案提供一个更全面的知识内容,为智能信息搜索引擎的进一步发展提供一个新的平台。
其他文献
进入新世纪,随着重大突发事件的频繁发生,我国媒体对重大突发事件的新闻报道在方式上转入更深层面,受众也变得成熟和理性,在传播规模和业务方法上基本做到了报道及时、准确、
随着我国经济的高速发展,为适应社会信息化和经济国际化的需要,我国出现了不少智能建筑。同样,智能技术也进入了医院建筑。它不仅改变了医院传统的管理模式、医疗习惯,也影响到医
阅读理解是学好语言的基本技能之一,是掌握语言知识、提高学生语言应用能力的基础。在日新月异的现代信息社会,快速阅读的能力显得尤为重要。非英语专业学生应具有一定的英语
我科自1989年以来采用CO2激光治疗尖锐湿疣患者1318例,取得较好疗效,现报道如下.
目的:探讨肝素酶(heparanase,HPSE)对肝细胞癌(hepatocellular carcinoma,HCC)细胞与血管内皮细胞黏附及穿内皮迁移的影响。方法:选用人正常脐静脉内皮细胞株HUVEC-C,肝LO-2
当前美术类课程在高师院校的开课比例较高,往往作为培养教师基本艺术素养提升为前提,结合学科专业特点也在发生着不同的变化。但是受传统艺术教育影响较大,“师徒制”教学模
探讨一种直方图均衡化图像增强的改进算法。对图像进行小波变换后,对低频小波系数进行均衡化处理,再小波反变换获得增强图像。结果验证,基于直方图均衡化图像增强的改进算法,
章丘地处齐鲁腹地,位于济南东45公里处,2009年GDP总值439.5亿元,地方财政收入39.3亿元,列全国百强县(市)第39位。小清河流经章丘市北部,境内河段长18.8公里。随着经济和社会
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
经皮球囊导管二尖瓣成形术(PBMV)应用临床已多年,具有创伤小、不需开胸、相对安全、疗效好等优点,深受患者欢迎.由于术中使用球囊导管(外径为12 F)及扩张管(外径为14 F)的外