《现代汉语语法信息词典》管理平台的设计开发和地名库建设

来源 :北京大学 | 被引量 : 0次 | 上传用户:shazishidaoo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文的研究工作包括两部分:《现代汉语语法信息词典》管理平台的设计与开发和地名库建设。 语言知识库作为自然语言处理系统必不可少的组成部分一直受到研究者重视。《现代汉语语法信息词典》便是面向信息处理而研制的电子词典,并且是北大语言所所有知识库资源的第一块基石。在语法词典的研制过程中,我们深感语言知识库建设之艰辛,也认识到辅助工具对语言知识库建设的重要性,于是特别投入力量开发了一系列的辅助工具。本文介绍的语法词典管理平台便是为语法词典建设而开发,它是根据词典建设者的需求而设计,提供了加词、修改、删除、检查、检索等功能,为词典管理者提供了方便、有效的管理平台。借助这个管理工具,我们顺利完成了语法词典由7.3万词向8万词的扩展,而且从各种不同角度提高了词典质量,保证了词典不同层级数据库中的数据一致性。 专有名词是自然语言处理中非常重要的一类名词,地名是专有名词的一种。为了识别专有名词,通常会扩大收词规模,语法词典将地名收录在名词库中,若大规模收录地名,必将引起语法词典信息膨胀,造成不必要的冗余。为了尽可能多的收词,又不引起语法词典信息膨胀,将地名从语法词典中分离建成地名库。本文的研究目标是根据地名特性设计地名库结构,并探索人民日报语料中地名属性的发现方法,开发辅助工具,自动构建地名库。
其他文献
对于整个通信系统而言,卫星移动通信系统是地面蜂窝系统的一种必要的补充和延伸,尤其在抢险救灾、应急指挥、海洋渔业等领域发挥重要作用。卫星移动通信系统主要由卫星、地面站
序列标注问题是自然语言处理领域的一个非常常见的任务,从浅层的分词、词性标注,到较深层的组块分析以至更为深层的完全句法分析、语义角色标注等任务,都可以看作是典型的序列标
学位
信息技术技术的飞速发展与数字资源数量的爆炸式增长,使传统的以关键字为检索为手段的信息获取技术日益不能满足人们的需求。在这种情况下,个性化推荐系统应运而生。推荐系统
Web的发展使得电子文档数目巨大且迅猛增长,大量的信息存在于非结构化的自然语言文档中,为了能高效地利用存在于自然语言文本中的信息,信息抽取技术提供了一条有效的途径,利用它
构件和基于构件的软件开发是目前软件工程领域研究的热点。基于构件的方法使得大型分布式软件系统的开发和维护变得更为简单,可以提高软件的复用性和软件开发效率。但是,采用
本文针对乐音音符的识别进行了具有开创性的研究,提出了一套比较有效可行的乐音音符编码方法。 乐音音符编码和自动乐谱编制技术是将纸质乐谱输入到计算机,经过处理,把乐谱图
面对快速增长的海量数据,人们对数据存储和处理系统提出了更高的要求。基于分布式顺序表的NoSQL正是为了满足这样的需求而出现的,典型代表有Google BigTable、Apache HBase和Ap
在过去的几十年间,处理器主频与内存访问速度间的差距的日益增大,使得许多程序的性能瓶颈集中在内存访问,体系结构中引入了多级高速缓存的结构(cache)来解决内存访问的瓶颈(m
随着Internet技术的飞速发展和企业信息化程度的不断提高,基于B/S的企业级Web应用系统成为信息化时代软件开发的主流。在Web应用系统开发中,采用传统的软件生成方式,不可避免