基于统计的搜索引擎中文输入纠错技术研究

来源 :北京邮电大学 | 被引量 : 12次 | 上传用户:lihuihui1986712
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在已经到来的Web 2.0时代,搜索引擎在互联网上扮演了越来越重要的角色,而日益增多并且成熟的互联网用户对搜索引擎的要求也越来越高,其功能也在不断丰富和完善当中,输入自动检查纠错功能就是一项非常重要的附加技术,并且已经得到了较为广泛的应用和推广。对于中文搜索引擎来说,输入自动检查纠错功能是指,用户在输入关键词进行搜索之后,如果搜索引擎在返回结果中计算出与此关键词相似的另一形式(如词组中出现同音不同字,或者某一错别字现象)得到大量的搜索结果,用户将会在搜索结果页面看到系统提供的推测到的关键词项。针对以上问题,首次将一种完全通过分析上下文统计信息的方法引入搜索引擎的输入纠错技术中(未见文献报道),根据中文语言的特点,对中文语料库建立了N-gram统计语言模型,并且对其进行了详细的分析,确定了语言模型所必需的参数,以及对其进行了优化处理,使其更加接近真实情况下的语言。研究中引入了TF/IDF权重计算方法,将初步统计语言模型得出的纠错检查结果再次计算比较,最终得出优化的纠错结果。以上所提出的理论模型,在以Nutch和Hadoop为基础搭建的分布式搜索引擎平台上进行了实验验证,采用了不同规模数量级的语料库(数量级从100K左右到5个GB左右),将检查纠错的统计分析和比较结果通过图表的方式进行展现,验证了完全通过上下文统计信息来对进行中文搜索引擎的输入检查纠错是能够取得较好的效果的,并且上下文语境信息越多,纠错的召回率和准确率也就越高。
其他文献
利用基因表达数据分类对癌症等恶性疾病进行识别,是数据挖掘技术在生物医学领域内的一个典型应用。决策树算法作为一种基础的机器学习算法,由于存在着理解性强,算法结构简单
深空探测集中显示了一个国家的科技发展水平和综合国力,在科学、经济、军事和政治上都有巨大意义。我国制定的空间科学发展“十五”、“十一五”计划,并已开展了包括月球探测
学位
传统的入侵检测研究很少考虑网络用户的意愿和行为规律,对攻击动机缺乏解释。这造成现有的入侵检测部署缺乏针对性,误判和漏判概率非常高,因此有必要引入新的研究方法和理论对攻
聚类作为一种知识发现的重要方法,它广泛地与中文信息处理技术相结合,应用于网络信息处理中以满足用户快捷地从互联网获得自己需要的信息资源。文本聚类是聚类问题在文本挖掘
电子政务是各级政府及政府职能部门将其服务和管理的功能通过互联网实现,以为企业及公民提供更好的服务。电子政务系统经历了几十年的历程,由于采用不同的开发语言和平台,导
地籍管理信息系统作为地理信息系统(GIS)与土地管理事务相结合的产物,为土地管理工作提供了快捷有效的信息获取手段和管理方法,通过引入GIS现代化信息技术,能够提高土地管理
移动GSM通信网络优化的主要任务是对网络设备参数进行分析和调整,确保稳定的网络性能和良好的用户感知。随着网络规模的迅速扩大,网络优化工作的难度越来越大,需要测试的路段
虚拟机技术通过对硬件资源进行模拟,实现对硬件资源的虚拟化。这样,采用了虚拟机技术,一台计算机可以提供多个相同的计算机硬件平台,从而能够同时运行多个操作系统并实现它们之间
随着计算机与信息技术的不断发展,生物特征识别技术受到了广泛的关注,指纹因其唯一性和终生不变性成为目前最可靠的生物特征识别技术研究对象之一。尽管目前在此技术上已有许
在当今的信息社会,信息安全已经成为迫切需要解决的问题。数据加密技术是一种主动的信息安全保护措施,为解决信息安全的问题提供了有效的方法。本文所研究的移动可编程数据加