面向现代汉语文本处理的全文检索、自动分词通用系统

来源 :南京师范大学 | 被引量 : 0次 | 上传用户:aweids
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
全文检索是现代信息检索技术的一个非常重要的分支,它是处理非结构化数据的强大工具,也是搜索引擎的核心技术之一。本研究对中文全文检索的有关技术进行了较为深入的研究,重点放在全文检索技术的应用上。对如何利用新技术、改善检索系统的结构、提高检索系统的性能和效率、不断适应信息技术发展的需求等方面进行了新的探索。 全文检索是一种I/O密集型的应用,以往的全文检索系统的开发多在关系数据库的基础上进行。本研究针对全文数据库的特点,指出此方式的弊端与不足,并提出了基于文件系统进行构建的解决方案。由于目前全文检索系统的开发平台并不多见,本文介绍了一种全文检索引擎工具包——Lucene,它功能强大,小巧精悍,便于嵌入各种应用。近年在世界各地被广泛使用,诸如IBM等公司都使用其核心代码。作为一个开源软件,为我们掌握搜索引擎的核心技术提供了绝佳机会,根据现代汉语文本的特点对进行二次开发,是一件很有意义的事情。 汉语自动分词及词性标注是中文信息处理中的重要环节。针对现代汉语自动分词及词性标注的难点,本研究在自动分词方面进行了如下探索:1.对几种常用电子词典的结构进行了分析和比较,实现了核心词典+专业词典的双词典策略,提高了系统的灵活性和适应性。2.采用根据分词有向无环图确定歧义字段的策略,一次性找出所有交集型和组合型歧义字段。3.采用基于角色标注的方法,识别未登录词中的中国人名、地名和外国人译名。4.采用规则的方法,对数字词及重叠词进行了分析和处理。5.利用基于隐马模型的汉语自动分词及标注一体化系统,实现了切分和标注的排歧。
其他文献
大量的研究表明,胃镜镜像与舌象具有一定的相关性,舌象在一定程度上可反映胃病患者胃镜下的病变情况。文章从慢性浅表性胃炎与舌象的关系、慢性浅表性胃炎胃镜像与舌象的相关
《海峡药学》由福建省科学技术协会主管,福建省药学会主办的综合性药学期刊。1988年创刊,1994年国内外公开发行,季刊。2003年改为双月刊,2007年改为月刊,逢月末出版。定价每
教师评价是教育评价的重要组成部分,如何科学地评价教师,促进教师的职业发展,提高教育质量,是当前教育改革和发展面临的重要课题。为了能促进教师的发展,就要全面而客观地进行教师
目的分析我市药品不良反应(ADR)发生的特点和规律,为深入开展ADR工作提供依据。方法通过国家药品不良反应监测系统对兰溪市2018年ADR报告进行汇总分析。结果 869例ADR患者,男
目的探讨头孢哌酮钠舒巴坦钠致患儿急性肝功能损伤的相关性和有效治疗方法,以及药学服务对头孢哌酮钠舒巴坦钠ADRs防治的意义。方法通过整理患者用药过程,查阅文献、诊治指南
随着国际上政治经济文化交流日趋频繁,国际间交往日益增多,中西方文化交流达到前所未有的繁荣程度,相应的,国际旅游业也迅速发展壮大起来。国际旅游交往中,国家与地区间的巨
目的评估肾功能不全高龄患者抗菌药物临床应用情况,并对个体化给药方案进行分析,促进个体化及精准用药。方法选取2018年10月至2018年12月肾功能不全高龄患者应用抗菌药物的病
目的分析我院2013年~2017年门诊特殊人群的用药咨询情况,提升我院药学服务质量。方法收集、总结我院2013年~2017年门诊患者的用药咨询记录,并按照咨询患者的基本情况、咨询内
目的了解医师对超说明书用药的认知情况,促进对超说明书用药的管理。方法通过纸质问卷调查的形式,对全院范围内的临床医师和实习医师进行超说明书用药认知情况调查,并用SPSS