基于自然语言理解的中文搜索引擎

被引量 : 2次 | 上传用户:ahde2006
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
进入21世纪,“信息爆炸”时代已经到来。海量信息的产生和存储一方面丰富了网络资源给人们的生活带来了极大的便利;另一方面,信息的过滤、筛选成为了人们合理利用信息的重要方面。搜索引擎就是一种帮助人们在浩瀚的网络资源中寻找所需信息的工具。本文对中文搜索引擎的设计和开发进行了深入研究,并以高等艺术教育网站作为平台实现了支持中文自然语言理解的搜索引擎。为了用户方便的使用搜索引擎寻找互联网上的信息,搜索引擎的使用方法应当更加人性化,并可以为不同领域的非计算机专业人员提供便利。人们越来越希望可以使用人类所掌握、熟悉的自然语言操控计算机程序。带有自然语言理解的搜索引擎自然成为了一个重要的研究方向。本文所研究目的就是使得搜索引擎可以在一定程度上理解人类的自然语言,从自然语言中抽取出关键内容并用于检索,最终达到搜索引擎和自然语言用户之间的良好衔接,可以在两者之间建立起更高效,更深层的信息传递。本文使用Lucene作为研究平台,在此基础上开发出带有自然语言理解的高等艺术教育网站的搜索引擎。中文文本的特点是没有空格作为词汇与词汇之间的间隔,因此本文采用了词库匹配的方法对自然语言文本进新了分词。在词典的设计上,我们采用了以首字为键的散列表结构。在进行查询结果的排序时,将用户输入的文本和现有的文本都映射成一个n维的向量,然后在两个向量之间定义了相似性的度量方法,并按照该方法对搜索引擎的返回结果进行排序。在实现时,网站的整体架构使用Java语言平台,但是其中也有一些功能模块以C++语言编写的DLL形式实现。因此还对Java平台调用DLL的方式方法进行了研究。最后,我们对该搜索引擎的性能进行了实验性的验证,最终的试验结果表明该设计思路是可行的,实际应用是有效的,它有效地提高了搜索引擎检索出的信息的质量以及显著增强了搜索引擎的交互能力。
其他文献
目的探讨子宫肉瘤的临床特点及治疗方法,加强临床医生对子宫肉瘤的认识,争取早期诊断、早期治疗,以改善患者的预后。方法回顾性分析2000年1月至2010年12月广西医科大学第一附
目的:探讨老年性腰椎间盘突出症的临床特点及手术与非手术综合疗法的临床疗效。方法:对72例60岁以上腰椎间盘突出症患者的临床资料进行回顾性分析。非手术综合疗法治疗采用我院
从介绍稻-菜轮作模式两茬作物茬口安排出发,详细阐述了稻-菜轮作主要栽培技术,包括品种选择、菜花栽培技术及水稻栽培技术等方面,并分析了稻-菜轮作模式效益。
目的:在体外建立一种SD大鼠骨髓间充质干细胞分离纯化、培养扩增、诱导分化及鉴定的方法,为下一步研究提供细胞基础。方法:应用全骨髓细胞贴壁分离培养法分离培养SD大鼠骨髓
<正>一、2009年广东生物高考命题简析2009年是广东高考实施"3+X+文基/理基"的考试模式的最后一年,高考命题要充分体现"依据考纲,兼顾教材,适当创新,平稳过渡"的指导思想,所以
在金融信息化和一体化的背景下,电子银行业务在商业银行业务创新中占有重要的地位。电子银行业务稳健、快速的发展对降低成本、扩大市场份额、提高竞争能力具有突出的作用。
目的通过锥形束CT(CBCT)评价MSolo File、ProTaper、WaveOne和Twisted File Adaptive(TFA)镍钛锉对中度弯曲根管的成形能力,为临床应用提供实验依据。方法 将符合实验标准的4
为研究复合微生物制剂对蛋鸡生产性能与免疫机能的影响,采用单因素设计试验,选用37周龄产蛋鸡360只随机分为4组,每组3个重复,每个重复30只,1组为对照组饲喂基础日粮,试验2、3
形状记忆材料是目前广泛应用于纺织领域服装设计开发的典型材料,对改善服装抗震性、抗褶皱、保温透气、防水保湿等功能有诸多益处。本文介绍了形状记忆合金和形状记忆聚合物