基于统计语言模型的搜索引擎输入纠错技术研究

来源 :江苏科技大学 | 被引量 : 2次 | 上传用户:liarcher
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息化飞速发展的今天,搜索引擎在互联网上扮演着越来越重要的角色,日益增多的互联网用户对搜索引擎的要求也变得越来越高.其中,搜索引擎输入纠错功能是一项非常重要的附加技术,并且已经得到了较为广泛的应用和推广.因此研究搜索引擎的纠错技术对于搜索引擎的发展有着重要深远的意义.纠错技术是自然语言处理的重要研究课题之一.针对中文文本的纠错研究相较于英文起步较晚.目前主要分为基于词典和基于统计模型这两大方法.基于词典的纠错受限于词典的规模和内容,而基于统计模型的方法则是基于海量实例,分析语言内在之间的关系,无需专门词典来实现.用于纠错的统计模型有有基于互信息概率,基于N-gram模型,基于组合度的汉语决策等.本文提出一种完全通过分析上下文统计信息的方法.为了论证本文方法的可行性,以Nutch和Hadoop为基础搭建分布式搜索引擎平台进行实验验证.本文主要完成以下工作:为了构架良好的搜索引擎平台,本文首先介绍了主流的索引机制—倒排索引.本文分析介绍了倒排索引的性能模型以及压缩技术,同时对该索引机制的性能与一般索引进行分析比较,计算倒排索引创建的时间复杂度和空间复杂度,进而引出良好应用倒排索引,构架搜索引擎的工具包Lucene.由Lucene搭建起搜索引擎Nutch.由于实验环境需要大数据,因此采用分布式平台,详细介绍了由Nutch+Hadoop搭建的分布式搜索引擎.由于汉语理论研究存在局限性,因此要想实现对检索引擎输入的内容实现纠错功能,就需要对中文语料库建立了N-gram语言模型,并对其进行详细的分析,确定语言模型所必须的参数,并通过平滑技术解决数据稀疏问题.基于大量语料库,通过N-gram模型纠错后的关键词可能存在相同的结果,利用TF-IDF计算初步处理后结果的权重,筛选结果,以此得到最佳的结果集.
其他文献
本文在仔细阅读并理解《从理念到行为习惯:企业文化管理》(珍藏版)一书的基础上,从思想政治教育的角度剖析食品企业的发展,并在不同领域的企业案例中,对企业提出加强思想政治
这次工业遗址保护与改造的主题是“延续,充实记忆,传承精神复兴,注入活力,赋予新生”。前言工业遗产属文化遗产的一部分,我国的工业遗产有狭义和广义之分。狭义工业遗产指的是鸦片
共青团是党的先锋队,也是国家建设的生力军。对于一个研究所来说,共青团组织是其青年的基层组织,是青年发挥自身才能、展现自我风采的舞台,因此,充分调动团员青年的积极性,使他们全
本文针对农村地区教研活动存在的活动目的不清、活动主题不明、活动形式单调、校际联合较少、过程管理松散等问题,提出联校教研等提高农村地区小学教研活动实效性的策略。
为了探索3D影像技术在黄梅戏、徽剧、动漫剧等相关文化领域的应用,实现科技与文化的融合。采用实验法和文献综述法探析3D影像技术的实践与应用的易用性和有用性,得出戏曲文化
在分析<模拟电子技术>课程实训教学现状的基础上,针对现有实训教学模式存在的不足,采用项目驱动的教学方法对<模拟电子技术>课程实训模式进行革新;并以超外差式中波半导体收
当前农村土地承包经营权的债权法地位存在着严重的制度缺陷,必须朝着物权化的方向改革,使其成为民法上一项新的物权.现行<农村土地承包法>在推进承包权物权化方面做了有益的
工民建施工技术是一项复杂的工作,它贯穿于工民建施工的全过程,施工技术作为工民建工程施工的关键,对工程质量起着决定性作用。近年来对工民建施工技术的研究也越来越引起社会的
目的:研究C-反应蛋白、降钙素原对肝硬化失代偿期合并肺炎患者诊断中的应用价值。方法:选取收治的68例患者,以34例肝硬化失代偿期合并肺炎患者为观察组,34例肝硬化失代偿期无
本文以2则疑难杂症的治疗为例,总结方邦江治疗疑难杂症的经验。