蒙古文同形词知识库的构建

来源 :内蒙古大学 | 被引量 : 10次 | 上传用户:myhotdonkey
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
据统计,蒙古文同形词在静态环境中占词典词条总数的18%,动态环境中占语料总词数的55%。全面、系统、形式化地研究同形词,不仅对蒙古语文教学、词典编纂有重要意义,而且对语料的读音识别、词法分析、词性标注、语义标注意义也是重大。通过本课题的研究,我们构建了蒙古文同形词知识库,包括“同形词信息词典”,人工识别与标注同形词的"100万词级现代蒙古语文数据库”,同形词的搭配库、共现库、类语库及“同形词信息词典”管理与维护工具,共现成分统计工具,“同形同音同类词”识别与标注工具等。同形词知识库是蒙古文综合型语言知识库的有机组成部分。本文由导论和六章组成:导论部分交待了本文研究对象、名词术语、研究概况、研究意义、研究步骤、研究方法及资料来源。第一章从语言信息处理的角度阐述了同形词的类别、来源、同形词与同音词、同形词与兼类词、同形词与多义词的关系。第二章详细论述了“同形词信息词典”的研制过程,其中包括词条来源、选词原则和方法、属性字段及取值规格等内容。第三章主要介绍了“同形词信息词典”管理维护工具的结构、功能、特点及存在的问题。第四章通过在"100万词级现代蒙古语文数据库”中人工识别标注同形词制作训练集,并对蒙古文同形词的分布情况做出了判断。第五章基于词典建立了同形词的搭配库、共现库、类语库。基于语料库在"100万词级现代蒙古语文数据库”中统计并计算出同形词共现成分的各种统计指数。第六章基于搭配库和共现库在测试集中自动识别标注了“同形同音同类词”,其识别标注召回率为99.8%,准确率为81.7%,并对测试结果进行了详细的分析和论述。
其他文献
液压传动作为上世纪中后期新发展起来的一门学科逐步发展、完善,并日益成熟,从水压机、千斤顶到目前各行各业的各种液压系统,从普通的开关系统到伺服系统、比例系统,从开环控
隐喻作为语言中的一种普遍现象,不仅是一个语言学、修辞学问题,也是人类普遍使用的一种认知方式。隐喻帮助我们构建人类的思维和概念系统,从这个意义上可以说,隐喻是深刻认识
清代集团性腐败的案件频频出现,一个地方大员贪腐,其他官员不但不举报,还百般为其遮掩,甚至默契配合,共同获利。从乾隆四十六年到四十九年间,清廷共查出了浙江嘉湖道王燧贪纵营私案
疫情防控路上,往往听不到什么豪言壮语,但可以看到很多默默坚守的身影。连日来,地处宿松县城繁华地段的孚玉山宾馆,每天都活跃着一群身穿防护服的人员站岗执勤的身影,他们有
3月24日下午,定远县人大常委会主要负责同志率调研组深入县经济开发区调研企业复工复产情况。调研组一行来到亚兰密封、鹭翔光电、爱迪节能等企业,与企业负责人深入交流,并走
中照照明奖是由中国照明学会设立,国家科技奖励办公室正式批准的中国照明领域唯一重要奖项。该奖项旨在奖励国内外照明领域中,在科学研究、技术创新、科技及设计成果推广应用、
体貌范畴一直是语言学界的研究焦点之一,而完成体系统作为体貌范畴的一个下位类型,受到的关注最为广泛,是体貌研究中着力最多的一个环节。纵观汉语完成体的研究现状,研究重心
本文提出词项概念指向性以及词项概念指向性选择的假设,该假设建立在具有心灵主义的认知进化论的基础之上,充分关照语言与现实、心灵的复杂关系,旨在(一)从微观上解释词项(尤
分析了除尘风机电耗高的原因,制定了相应的措施并实施。每年创造300多万元的经济效益。
根据近几年我国能源消费总量、国内生产总值(GDP)以及国民经济中各产业的能源消费量等数据,应用灰色关联理论的关联度分析了我国能源消费、国内生产总值(GDP)的增长与各产业的相关