基于概念的中文文本检索研究

被引量 : 0次 | 上传用户:mythzhang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文文本检索是信息检索的重要组成部分,目前几乎所有搜索引擎都是采用关键词的检索方法,其核心是关键字符的机械式匹配,存在的问题之一就是召回率低,导致检索系统的整体性能低。概念检索通过基于语义的自然语言处理来析取各种概念信息,并由此形成一个知识库,然后,根据对用户提问的理解来检索知识库中相关的信息以提供直接的回答,有效地弥补了关键词检索存在的缺陷。本文就中文文本检索中文本的重构、查询的扩展进行了研究。主要研究工作如下:1.提出了基于文本关键词同义合并的词条权重计算方法,构建了基于概念语义同义扩展的文本检索模型。TF-IDF是现有典型的文本词条权重计算方法,其存在的主要问题有:1)没有考虑语义同义关系;2)文本词条没有固定权重;3)支撑主题的核心词易被赋予较低权重。基于文本关键词同义合并的词条权重计算方法,有效解决了上述三个问题,并借助该方法,构建了基于概念语义同义扩展的检索模型。实验表明,该模型较关键词检索模型在精确率小幅度下滑的同时,召回率得到较大提高,综合性能得到了改善。2.构建了基于概念语义同义扩展检索模型与关键词检索模型结合的检索模型。精确率和召回率是检索系统性能评价的两个重要指标,针对基于概念语义同义扩展的文本检索模型较关键词检索模型精确率低的现象,采取了相应的补救措施:将其与关键词模型结合检索,旨在通过调整两者不同的结合参数,找到一个更优的模型。理论分析与实验表明,该结合模型中的比例参数调整适当,能平衡检索系统的准确率与召回率,获得更好的检索效果。3.提出了检索概念权重计算的两种方法和一种基于检索概念扩展的文本概念权重计算方法,构建了基于概念树扩展的两个检索模型。分析了概念在语义层次上的扩展,将概念树中的父子概念关系用词语的相似度进行量化,检索概念采用两种权重计算方法;并将这两种方法用于两个对应的检索模型,基于检索概念的文本概念权重计算方法将用于其中的一个模型。实验显示,这两个检索模型的精确率与关键词检索模型保持基本一致,召回率却得到较大提高。
其他文献
饶州地区位于皖、浙、赣三省的结合部,地理位置十分重要。境内水陆交通便利,是明清时期皖、浙、赣、闽、粤货物往来的重要通道。辖内景德镇是明清时期江西四大名镇之一,同时也是
理论上看,在保证政策独立性的约束条件下,任意给定资本流动性,可以找到与之对应的使该国中间汇率制可持续的汇率波动的弹性空间。一旦这一弹性空间被确定,中间汇率制将可兼备
目的比较香港和内地大学生的疏离感状况。方法采用杨东编制的《青少年疏离感量表》对两地大学生进行测量。结果两地大学生在自我疏离感、社会孤立感、自然疏离感和生活环境疏
和声学以其独有的魅力为音乐教育发挥着重要的作用,它是从事音乐教育工作和音乐理论研究必备的基础。因此,如何将和声课上好一直是高师教学改革中常探讨的话题。本文《论计算
随着人类社会的发展和进步,人民生活水平的不断提高以及余暇时间的增多,各类旅游活动蓬勃兴起,旅游业已成为各国国民经济中新的增长点。体育旅游是现代旅游业的一个重要组成
<正>索绪尔是20世纪思想史上的重要人物,结构主义的创始人,现代语言学之父。索绪尔研究,指的是在1913年索绪尔逝世后,索绪尔的学生对索绪尔讲授的“普通语言学”课程听课笔记
《奉献-为大提琴和Max/MSP而作的帕萨卡里亚》是作曲家刘健受2009上海音乐学院国际电子音乐周之委约而创作的一部交互式电子音乐作品。它采用了传统音乐中的帕萨卡利亚形式,
<正>语言是文化的载体,文化环境影响语言的发展。语言和文化密不可分的关系使得外语学习不能单纯的只学习语言知识,还要注重对英语文化内涵的理解。随着英语教学改革的不断深
在 2 0世纪相当长的一个历史阶段内 ,在形式 -自律论音乐哲学思想作用下 ,以探索揭示音乐的内在规律、崇尚追求音乐形式与结构美为主旨的表现主义、新古典主义等音乐流派的西
文章通过对新制度经济学中交易费用理论、契约理论以及受托责任理论的研究分析 ,指出在我国现代企业制度的建设中引入内部审计部门的必要性 ,并进一步指出在当前经济改革和实