自然语言叙词表自动构建研究

来源 :南京农业大学 | 被引量 : 0次 | 上传用户:atmip
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
一个完整的检索系统包含四个子系统,即标引子系统,检索子系统,词表系统和用户-系统接口。其中,词表是检索系统的基础,是影响检索效率的最主要因素。目前网络信息检索效率很低,主要原因是字面不匹配问题。为了改进检索系统的性能,需要引入叙词表等控制机制,使检索从字面匹配层次提升到概念匹配层次,从而实现概念检索。人工编制词表准确率高,但是成本高,建构速度慢,事先选用的词汇可能与检索系统后续新进的文献无关;有学者经实验证明,通用叙词表应用到特定领域的文献检索上,无法提高检索效率;另外,针对每一种文献领域制作叙词表,既耗时又费力,所以,自动快速地构建领域叙词表是提升网络信息检索效率所迫切需要的。针对以上问题,本文提出了一种自然语言领域叙词表自动构建方法,该方法构建的词表能够在标引和检索两端对输入的自然语言进行控制,是一部“内核受控,外壳非控”的自然语言叙词表。自动构建叙词表,是通过模式识别、同现分析、聚类分析等知识挖掘和自然语言处理技术自动识别词间等同、等级和相关关系。本文主要探讨词间等级关系和相关关系的自动识别,首先以Dice测度计算词汇之间的关联度,构建关联概念空间,在此基础上采用等级词聚类算法把表述同一类事物的词汇聚集在一起,然后通过等级识别算法识别出各簇内的词间等级关系;对于相关关系,主要通过关联概念空间提示相关词汇;对于等同关系,采用模式识别方法结合词面相似度算法予以识别。本文以财税领域为试验数据来源,在自动构建一部财税领域叙词表后,将其应用到财税网页文本的自动标引上,把抽取的关键词通过财税词表自动转换为“内核”主题词实现赋词标引。同时,可以采用自然语言查询词表,系统会根据财税词表把自然语言词汇转换为最相关的内核受控词,提示给用户使用,从而减轻用户检索负担。本文也探讨了如何对自动构建的词表进行更新和维护,并借鉴N-gram算法,实现了财税新词的识别功能,及时对自然语言叙词表进行补充和更新。自然语言叙词表自动构建试验系统采用VB.NET程序设计语言和ACCESS数据库软件开发而成。
其他文献
<正>有一个故事在中国广为流传,至今仍被百姓津津乐道:德国统一之后,曾经守护柏林墙、向翻墙民众开枪的士兵受到审判。有一个士兵辩解说,他是被迫执行上级命令。法官回答,你
期刊
<正> PC—1500计算机,系日本夏普(SHARP)公司生产的一种微型可编程序电子计算机。该机具有体积小、重量轻、价格低、质量好、工作环境无特殊要求等优点。随着四化建设的飞跃
<正> 21世纪的前15年是我国经济发展的关键15年,为确保未来15年经济快速、健康、有序地向前发展,目前地方各级政府、各行业主管部门已经和将开始“十五”及2015年规划的编制
以苄基溴和4-二甲氨基吡啶为原料,在超声下合成了溴化苄基-4-二甲氨基吡啶季盐,采用元素分析、红外光谱、紫外G可见光谱和电子喷雾质谱等方法对其进行了组成分析和结构表征;
在中国近代著名的教育家蔡元培的思想政治教育理念中,"五育并举"在其中占有极为重要的思想地位及教育价值。本文从"五育并举"的基本内涵出发,探究其教育影响。
利用纯化的重组杆状病毒表达猪圆环病毒2型(PCV2)Cap蛋白作为检测抗原,建立一种间接ELISA方法用于血清抗体检测。昆虫细胞株(Sf-21)接种重组杆状病毒,对蛋白表达参数及纯化工
随着国民休闲需求的增长,温泉旅游开发持续攀升。吉林省拥有非常丰富的旅游资源,如果加以充分地开发和利用,对满足旅游者日益多样的消费需求和提高群众性休闲生活质量,以及研
我国体育中考制度始于20世纪80年代初期,经过30多年的发展,这一制度已在全国推广实施。体育中考制度对于学校体育工作和学生体质提高有积极影响,但目前暴露出一些弊端,亟待改
目的:探讨如何利用高校的资源优势创新高校社区药学服务。方法:介绍某高校医院开展药学服务的实践与体会,论述如何利用高校优势系统化、规范化地在社区开展药学服务。结果与
分析了中石化洛阳分公司循环水处理过程中存在的问题 ,指出循环水系统内长期漏入工艺介质、加酸配方的缓蚀性能有一定的局限性是循环水水质超标的主要原因。针对问题提出了有