蒙古语语料库加工集成平台的构建

来源 :内蒙古大学 | 被引量 : 14次 | 上传用户:adige
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语料库是按照一定的原则收集和组织的真实的自然语言作品的集合。语料库经过加工,才能成为有用的资源,能够为各种自然语言处理系统所利用。所谓加工,就是把语料库中隐藏的信息显现出来的过程。根据粒度的不同,语料库的加工分为词法标注、短语标注、句法标注和语义标注等不同层次。蒙古语已构建《1000万词级的现代蒙古语语料库》,其加工方面已涉及到词法、句法、语义的各个层面,但具有代表性的大规模多级标注语料库还没有形成。研究者们都以各自的实验为目的,从大规模语料库中抽取所需的语料,按照自己的标准进行不同层面的标注。这不仅出现了很多重复劳动,而且标注的语料库相互之间不能通用,更不能直接应用于其他研究中。因此,构建大规模的能广泛应用于蒙古文信息处理工作的多层次标注语料库是非常必要的。本研究根据语料库语言学的理论和方法构建了蒙古语词法-命名实体-固定短语-语义类型标注为一体的多级加工语料库。采取机器标注为主、人工校对为辅的方法对蒙古语最具代表性的语料库—《100万词级现代蒙古语语料库》进行了词法分析,命名实体之人名、地名和机构名的标注,固定短语的标注和语义类型的标注,初步构建了蒙古语多级标注语料库。本人前期工作中研发的蒙古语词法分析系统—Mglex在20万词级的训练语料库上取得了90%的准确率,但该系统尚未对命名实体进行识别。命名实体识别是蒙古语词法分析系统的重要组成部分,一个完整的蒙古语词法分析系统不仅包括词法标注,还应包括命名实体的识别。除此之外,命名实体识别是信息抽取、信息检索、组块分析、机器翻译、问答系统等技术的重要基础,它的研究成果将直接影响到文本信息自动化处理的深层次研究。因此,本文着手研发了蒙古语命名实体识别系统,具体研究内容包括:(1)采用条件随机场模型和规则相结合的方法识别了蒙古文人名和地名。根据蒙古文人名和地名的特点分别选取6种和5种特征作为CRF模型特征,对于蒙古文人名中特有的兼类人名则采取了基于规则的方法。最后采用词典和规则纠错,召回未识别的人名和地名。实验结果显示,人名和地名的识别准确率分别达到了94.56%和94.68%,召回率达到了90.60%和84.40%,F值达到了92.54%和89.24%。(2)机构名识别方面提出了基于知识库的识别方法。根据蒙古文机构名的语法特性,总结出简单机构名和复合机构名的构成规律,设计出有效的识别规则和相应的知识库,实现了蒙古文机构名的识别。本文从中国蒙古语新闻网的时政报道板块下载新闻片段243(包含417个机构名)段测试机构名识别系统性能,该系统在测试集上取得了73.75%的准确率和67.38%的召回率。除此之外,本文还详细介绍了改进蒙古语词法分析系统Mglex性能所做的研究工作。从语料库预处理、候选词优化、兼类词消歧和后处理等四个方面改进了Mglex系统。在兼类词消歧方面本文提出了基于词组搭配的兼类词消歧方法,而词组搭配获取方法上采用了最朴素的统计搭配词与节点词的共现频数法。通过改进,Mglex系统取得了词级联合切分与标注准确率94.00%,词级切分准确率97.80%的成绩。
其他文献
词的意义是客观事物或现象在人们意识中概括的反映,并且是由使用这种语言的民族在社会交际过程中约定俗成的。从词所含意义的多少和词与词之间意义上的关系来看,又可分为不同
为解决足球机器人中已知颜色属性的物体的识别问题,本文提出了一种基于HSV模型,应用H、V参数特征值来识别指定颜色属性物体的方法.在HSV模型中,参数H能较集中的反映被识别物
区域创新体系是提高区域创新能力、推动产业转型升级的有力保障。对于传统产业步履艰难,新兴产业方兴未艾的温州市来说,以政府为主导的区域创新体系建设是其实现转型升级、谋求
肩水金關是漢代張掖郡肩水都尉下轄的重要關卡,是河西走廊進入居延地區的必經之路。早在1930年中國和瑞典考古學家就組成西北科考團就在肩水金關遗址發掘出850枚漢簡,这批簡與
根据隧洞施工的要求,结合实际隧洞工程项目,介绍Ishikawa法,并将其引入隧洞进度管理,对该工程项目的进度进行了原因分析,针对性地从瓦斯和渗漏水控制、激励机制以及组织管理等方面
提高施工工艺以及火电安装项目的内在质量,历来都是各个火电施工企业长期不断追寻的目标。为了进一步提高仪表管路敷设的工艺水平,降低工艺成本。特将历年来我们的一些安装经验
根据博兰尼的"脱离—嵌入"理论,"半城市化"现象指的是城乡的经济活动、空间、制度和文化的相互连接和相互融合过程的破坏。造成"半城市化"的原因包括城市空间失衡、农民工社
本文介绍一种基于Ada的交叉引用语言CRL/Ada,它用于描述Ada程序实体的定义与引用信息,在软件维护的过程中,利用它可以方便地获得软件源程序中的实体信息。本文将介绍它的设计思想、程序结构与
“被动”是普遍存在于人类语言意义范畴的概念,而由于以生成语法为代表的形式主义语言研究在二十世纪后半期的统治地位,有关“被动句”的研究大都关注形式层面的特征,将重点
综述了近年来植物源杀虫剂的种质资源、活性成分、作用机理的研究进展。并对相关方面提出一些建议。