中文结构化信息检索系统的研究与实现

被引量 : 21次 | 上传用户:tonnyliu2042
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文研究的主题包含中文信息检索与结构化信息检索两个方面,分别从中 文信息检索系统中文档与查询条件相似性计算、查询扩展、查询条件的翻译及 结构化信息检索等四点进行了研究与探讨。本文的主要贡献如下: (1) 论述了基于中文语词的索引方法是中文信息检索系统中必然采取的索 引方法。系统地阐述了一种新的计算检索词间关联关系的方法-基于PM 的检 索词对权重计算方法,并将其引入到文档与查询条件的相似性计算中。 (2)研究了中文信息检索系统中检索词对的邻近关系值与互信息值对系统 检索性能的影响,实验结果表明当检索词对互信息计算的精度较低时,检索词 对的邻近关系值比互信息值对系统的检索性能的提高更有帮助。 (3)提出了基于局部信息中检索词间关联矩阵的查询扩展方法。在由初始查 询条件得到的前列文档集中,采用基于第二级关联假设自动主题词表的构建思 想计算得到前列检索词及其权重值,并加入到初始查询条件中实现查询扩展。 (4)提出了基于检索词间互信息的查询条件翻译方法,为查询条件中检索词 的译项选择提供了新的方法,并间接地通过检索词的关联序列较好地保存了查 询条件中的短语信息,构造出了检索词带有权重信息的目标语种的查询条件。 (5)分析了利用XML 文档中的结构信息来提高传统信息检索系统检索性能 的方法。通过引入文档结构索引库、元素索引库及属性索引库实现了面向XML 文档的结构化查询,设计出了中文结构化信息检索系统CSIR,并实现了其主要 的一些功能。
其他文献
竞争激烈的市场经济一方面为企业提供了广阔的经营舞台,另一方面又暗藏了无数急流和险滩。稍有不慎,就可能被卷入失败的漩涡。企业因财务危机陷入困境,甚至宣告破产的例子已屡见
产业集中问题是产业组织理论和产业经济学研究的核心内容之一。本论文采用1995年第三次全国工业普查近60万个企业以及521个四位数小行业的系统数据,采用定性与定量相结合的方
改革开放以来,交通基础设施的投资体制逐步向市场经济和国际惯例靠拢,投资主体日趋多元化。因而,其投资方式也趋向多样化,资金投入量也越来越大。据国家发展计划委员会的有关统计
服装制造行业作为我国的一大经济支柱,在国民经济的发展中起着举足轻重的作用,随着全球市场和我国市场的发展,服装制造行业也正在发生着巨大的变化,由传统的生产加工型企业向现代
随着对车、船、飞机乘坐舒适性要求的不断提高,其乘坐室(舱)内的噪声问题越来越引起人们的高度重视。乘坐室(舱)是一个相当复杂的声学系统,不仅结构复杂而且形状不规则,加之结构
实物期权理论是金融期权理论在企业投资决策中的运用,代表了现代财务理论的最新研究成果。作为对传统投资决策中使用的NPV方法的延伸和扩展,它为企业投资提供了新的分析思路和
中朝关系,源远流长。在几千年的漫长岁月里,中国与朝鲜水土相连,血脉相通,民族交流与融合则向来没有间断。到明末清初,中国与朝鲜依然在宗藩关系的框架下保持着传统的友好交往,同时
危机管理是企业针对可能发生的危机和正在发生的危机,进行事先预测防范、事中妥善解决、事后学习提升的一种战略管理手段。二十世纪80年代,美国企业界开始在企业内部成功地运用
核心竞争力的概念出现于二十世纪九十年代,其重要意义在于使企业得以长期保持其竞争优势。广告公司作为一种服务性企业,要赢得长期竞争优势也必须培育自身的核心竞争力。当前,研
战略管理是二十世纪七十年代后期出现的,近十年来发展迅速、应用广泛、收效显著,它是一种新的管理方式和新兴管理学科。随着中国加入WTO的步伐加快,港口作为一个与外界紧密相通