语料信息的应用与民族文字语义词典的开发——以蒙古语语料信息研究与新词语词典编纂为例

来源 :第二届全国少数民族青年自然语言处理学术研讨会 | 被引量 : 0次 | 上传用户:alienroom
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
通过对改革开放后滋生的数万条汉语新词语词义结构以及社会应用状况的研究,认为汉语辞书领域形成了一定的科学体系和具有蓬勃发展的势头。同时,针对民族文字新词语辞书编纂尚属一块处女地,在观念、运营、研发等方面存在的滞后现象,以笔者自主研发的《汉蒙新词语诠释词典》(国家民委05MCBS01科研项目)的做法与经验为例提出:及时、主动地将汉语新词语进行母语化的词义诠释、梳理、规范来引导受众,是民族文字学术界和出版者责无旁贷历史责任。它对保护和发展少数民族语言文字将起到良性作用,避免少数民族因“词汇空缺”而导致语言衰退,甚至走向濒危境地。
其他文献
维吾尔语单词的构形词缀按照一定的规则连接到词干,维吾尔语的黏着语特点和构形词缀连接规则使得可以构造维吾尔语构形词缀的有限状态自动机。本文将详细介绍维吾尔语形容词
词性标注有很多不同的研究方法,目前的维吾尔语词性标注的方法都以基于规则的方法为主。本文在大规模人工标注的语料库的基础上研究了基于N-gram模型的维吾尔语词性
会议
本文研究了哈萨克语自动词法分析中的构形附加成分的切分和词干提取问题。系统首先对待切分词使用有限状态自动机进行分析。如果成功则将输出作为切分结果,否则再使用双向全切
会议
蒙古语模拟动词的数量较多,目前很难把所有的模拟动词全都收录到“蒙古语法信息词典”中去。所以自然语言处理中会遇到未登录模拟动词的识别问题。蒙古语模拟动词的
会议
维吾尔语自动分词是维吾尔语信息处理的基础工程,维吾尔语对偶词的自动识别则是维吾尔语自动分词的难点之一。维吾尔语中,内部成分平等连接而形成的词汇单位叫做对偶词。本文首
本文中比较详细地描述了维吾尔语数词词干提取所存在的问题,并对其进行了分析。提出了基于有限状态自动机和词典查询相结合的维吾尔语数词词干提取算法,从而实现了以较高的准确
目前测定水中硝酸盐氮的常用方法有二磺酸酚法、镉柱还原法等 ,二磺酸酚法干扰离子较多 ,特别是氯离子有严重干扰 ,预处理的步骤繁琐。镉柱法结果偏低 ,而每一个柱每天要校一
本研究针对藏语模式匹配法自动分词,收集了多部藏语字词典的所有词条及藏语标点符号,进行归并、词性标注、删减审定、最后形成了约10万词条的大型藏语分词词典。如此
会议
本文从文本分析模块入手,利用“维吾尔语语音声学参数库”,选择了以开音节和闭音节结尾的333个三音节词的韵律参数,包括元音时长、音高和音强进行了统计分析,归纳了其元音时长、
会议
中国营养学会指出:“薯类含有丰富的淀粉、膳食纤维,以及多种维生素和矿物质,我国居民近十几年来吃薯类较少,应当鼓励多吃些薯类”。而我省部分地区居民又以甘薯为主食,我们