论文部分内容阅读
本文的研究工作包括两部分:《现代汉语语法信息词典》管理平台的设计与开发和地名库建设。
语言知识库作为自然语言处理系统必不可少的组成部分一直受到研究者重视。《现代汉语语法信息词典》便是面向信息处理而研制的电子词典,并且是北大语言所所有知识库资源的第一块基石。在语法词典的研制过程中,我们深感语言知识库建设之艰辛,也认识到辅助工具对语言知识库建设的重要性,于是特别投入力量开发了一系列的辅助工具。本文介绍的语法词典管理平台便是为语法词典建设而开发,它是根据词典建设者的需求而设计,提供了加词、修改、删除、检查、检索等功能,为词典管理者提供了方便、有效的管理平台。借助这个管理工具,我们顺利完成了语法词典由7.3万词向8万词的扩展,而且从各种不同角度提高了词典质量,保证了词典不同层级数据库中的数据一致性。
专有名词是自然语言处理中非常重要的一类名词,地名是专有名词的一种。为了识别专有名词,通常会扩大收词规模,语法词典将地名收录在名词库中,若大规模收录地名,必将引起语法词典信息膨胀,造成不必要的冗余。为了尽可能多的收词,又不引起语法词典信息膨胀,将地名从语法词典中分离建成地名库。本文的研究目标是根据地名特性设计地名库结构,并探索人民日报语料中地名属性的发现方法,开发辅助工具,自动构建地名库。