藏语语料库词语分类体系及标记集研究

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:lpucicy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
青海师范大学藏文信息处理与机器翻译省级重点实验室已完成1000万字的藏语语料库的加工实验,加工的主要目的是使计算机能够对藏语语料库中的藏语词语进行自动切分和自动标注。该文在对大规模藏语语料库进行自动切分和人工分析的基础上提出了一个藏语词语分类体系和标记集。根据藏语语料库和计算机自动切分和标注的实际需要,在藏语词语分类体系的构建上,采用先分虚实,再确定大类,在大类的基础上分出小类,再分出不同深度的子类。在藏语语料库加工实验中的应用表明,该分类方法和标记集是一个比较合理和实用的。
其他文献
【正】 又到了朔风劲吹的季节,大街小巷林林总总的饭店餐馆,纷纷打出日本料理、韩国烧烤的招牌,以香、鲜、嫩、脆的烧烤风味,吸引了众多喜好尝鲜的食客。然而,对于餐馆、饭店
羡慕别人的连锁店开了一家又一家?想知道别人连锁经营成功的秘诀?连锁美容院开店宝典就像是一个魔方,神秘却又有章可循。
天津石化烯烃部自主研发的新产品——聚乙烯包装膜专用料实现工业化生产。由中国石化天津分公司研究院与中沙(天津)石化联合研发生产的国内首创食品级低气味小中空专用料HD6007
指代消解是自然语言处理中的一个重要问题,包括专有名词、普通名词、代词的指代识别。本文实现了一个基于机器学习的英语名词短语的指代消解平台,通过对原始语料进行命名实体识别和名词短语识别等一系列预处理,选取了多个有效特征及其组合,分别采用最大熵和SVM两种分类算法对名词短语进行分类,在此基础上着重研究了距离特征对指代消解的影响。在传统的基于机器学习的指代消解研究方法中,候选词和先行语的距离被定义为特征,
<正> 天然香辛调味料是一种具有香、辛、麻、辣、苦、甜等易挥发出气味的天然植物型调味品。广泛地应用在食物调味和食品加工业,尽管香辛调料中的许多品种,如蒜、葱、辣椒也
特征选择在文本分类中起重要的作用。文档频率(DF)、信息增益(IG)和互信息(MI)等特征选择方法在文本分类中广泛应用。已有的实验结果表明,IG是最有效的特征选择算法之一,该方法基于申
陕西省多位分销商和专营店客户突然发现,巧瑛公司发送的上海某终端品牌产品与要求完全不符,而且基本上全是滞销品,季节性旺销产品只占很.少比例。紧接着,巧瑛商贸公司的电话打不通
<正> 一前言当MH(Mucor hiemalis NRRL3103)在大豆上生长时,菌体产生的蛋白酶仅有小部分溶解在培养滤液中,而大部分酶仍结合在菌丝体表面。该蛋白酶的最适pH范围是3.0~3.5。然
<正> 成品酱油的理化质量指标中,氨基氮和全氮这二个项目都是属于主要指标的内容,二者必须符合质量规定指标才能报产与成品出厂。我们在实际工作中,酱油配兑时往往遇到氨基氮
重点研究维吾尔语中弱化现象及处理算法,并分析了维吾尔语词法结构,音节结构,词干一词缀连接形式等技术。处理弱化问题时,要根据词干库检查弱化属性,并根据语音和谐规律分析是否正