基于统计语言学模型的中文文本信息检索

来源 :第二军医大学 | 被引量 : 5次 | 上传用户:jsyzcqg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着各种文本信息资源的迅猛发展,文本信息检索系统已经成为人们获取有用信息不可缺少的工具,而文本信息检索模型作为文本信息检索技术的数学基础,是主要的研究方向之一,具有重要的意义。统计语言模型作为一种自然语言处理的工具,已经被证明有能力处理大规模真实文本。而统计语言模型和IR相结合后所形成的IR模型的提出,是信息检索模型研究上的重大进展。本文从文本检索模型的基本原理入手,分析了几种传统IR模型的优缺点,给出基于统计语言模型的IR模型的基本原理、关键技术以及它的优势所在。并在标准的TREC中文实验数据集上,回答了下面两个问题:(1)中文统计语言模型-IR模型的性能如何?也就是说,中文统计语言模型和IR相结合有没有前途?(2)特征选择对中文统计语言模型-IR模型的影响如何?哪种特征选择方法好?对于问题(1),我们用SLM-IR模型和两种传统的IR模型:向量空间模型和概率模型进行比较,以标准的TREC评价手段,给出上述3种模型的性能。实验结果表明:简单的SLM-CIR模型的性能要优于简单的向量空间模型和概率模型。对于问题(2),我们选择了几种典型的特征选择方法,即单汉字、分词、bigram,比较它们的性能。同时,考虑到分词的特殊性,我们又选择了几种不同的分词方法,给出了基于不同分词方法的分词切分SLM-IR模型的性能。实验结果表明:①对于单汉字切分,简单的SLM-CIR模型的性能要优于简单的向量空间模型和概率模型;对于分词切分和Bigram切分,简单的SLM-CIR模型的性能要优于向量空间模型,虽然略低于OKAPI概率模型,但是反馈后的SLM-CIR模型的性能要明显优于反馈前和反馈后的OKAPI概率模型。②对于简单的SLM-CIR模型,分词切分的性能不如Bigram切分和单汉字切分,而且不同的分词方法对检索性能的影响不明显。这就说明了在SLM-CIR模型中,分词技术不是影响模型性能的关键因素。③验证了英文数据集上的实验结论,即无论采用哪一种切分方法,使用狄利克雷先验值的贝叶斯平滑方法仍比其他两种平滑方法好。 <WP=5>今后,可以在语义平滑技术等方面进行深入研究,并且把统计语言模型作为构建更复杂的IR模型的一个强有力的工具。
其他文献
汽车产业近年来在我国迅猛发展,第三方汽车物流也随之蓬勃兴起。汽车物流需求存在波动性,对物流公司的经营管理,尤其是库存控制造成不稳定的影响,使经营成本的增加,影响物流
国际新秩序不但是大国间物质力量的排序与组合,也是国际社会政治结构的解构与重建。曾在近代倍受列强欺凌而今迅速崛起的中国,应该如何处理与国际社会的关系、确定自己在国际
电子产品的微型化及高性能化驱使集成电路尺寸持续减小,作为微连接和导电桥梁的焊料凸点的尺寸也急剧减小,导致互连焊点中的电流密度的持续增长,达到或超过了互连焊点内部会
<正>新中国成立以来,我国港口行业得到了较大发展,特别是改革开放奏响了港口文化建设的新篇章。进入21世纪,企业文化已经成为企业通行世界的"护照",谁拥有文化优势,谁就拥有
<正>质量是企业生存的命脉,而品控是企业质量的守护者。无论是国内还是国外,大型的饲料集团公司都有专门的品控部门来负责公司原料、生产、成品及流通等各个环节的质量控制,
期刊
区域创新体系是国家创新体系的重要组成部分,推进区域创新体系建设提高区域创新能力和效率是关系到区域经济社会发展的重大课题。而要破解这一课题的关键在于促进信息与知识
中国兰指兰科兰属中的小花型地生兰;因其在中国的栽培历史最久远且分布最广,西方人称其为东方兰,国人称为中国兰,简称国兰。中国兰总计七个种,包括春兰(Cymbidiumgoeringii)
<正>随着我国社会主义经济的不断发展,公路桥梁建设也发展很快,桥梁结构数量不断增加,大大的提高并改善了我国的交通运输状况。但是,由于公路桥梁负荷日益加重,许多的在役桥
山东省聊城市位山灌区是我国最大的引黄灌区之一,位山灌区建立时间比较久,在过去虽然为当地农业经济发展发挥了重大的作用,但在灌区运营中存在着很多问题,其中水资源的浪费就
目的探讨一期全膝关节表面置换术治疗双膝重度骨关节炎的临床疗效。方法对22例双膝严重骨关节炎患者行同期双膝关节表面置换。同时记录引流量、输血、血栓等严重并发症。结果
会议