蒙古语基本动词短语自动识别研究

被引量 : 37次 | 上传用户:LittleCam
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蒙古语基本动词短语自动识别研究属于语言学基础研究,是语言信息处理重要研究课题。蒙古语基本动词短语自动识别研究包括边界识别和结构判定两部分内容。为归纳基本动词短语识别规则,作者从100万词级现代蒙古语语料库中选取部分语料建立训练集Ⅰ(约4万词)和训练集Ⅱ(约20万词),并对训练集Ⅰ的全部句子(共1501个句子)进行短语结构分析。根据短语结构分析结果,挑选出2751条基本动词短语,创建基本动词短语库VPset。对VPset的全部实例进行统计分析的基础上,归纳基本动词短语词类组合类型与相应的形态特征、基本动词短语成分之间的结构关系类型与相应的形态特征,并提出基于结构性质与统计信息的基本动词短语识别优先级别。根据VPset的实例分析,一方面,对某些基本动词短语类型的组成成分进行再分类探索,另一方面,利用现有的短语结构规则研究成果建立面向基本动词短语自动识别的上下文信息表。结合本课题研究,本文提出原因俱全原则和约束适度原则。在这两种原则的支配下,把词类、形态、子类和上下文特征等信息组织成基本动词短语识别规则。在基本动词短语识别规则的形式化描述方面,在参考复杂特征理论的基础上,结合基本短语的特点,提出面向基本短语形式化描述的MBT形式模型,有效形式化了蒙古语基本动词短语识别规则。根据基本动词短语识别规则,用VB程序设计语言编写基本动词短语识别软件,并在训练集Ⅰ和训练集Ⅱ中进行自动识别测试,给出自动识别的召回率和准确率。根据测试结果分析,归纳边界潜在歧义格式和关系潜在歧义格式的同时,对其消解策略进行探讨,并利用上下文信息优化基本动词短语识别规则。根据优化的基本动词短语识别规则,在100万词级现代蒙古语语料库中进行自动识别。识别结果表明,边界识别的准确率达86.69%,结构判定的准确率达80.12%。在目前的条件下,这样的识别效果还是令人满意。
其他文献
试验插座的设计必须满足当今试验环境的电气要求而不牺牲机械性能。1.引言现代高密度和高速度集成电路(IC)器件已经改变了试验插座设计师对于机械和电气性能特性的设想。坚固、
期刊
尼曼匹克病 (Niemann Pickdisease ,NPD)是一种常染色体隐性遗传性疾病 ,至今以完整的尸检进行病理临床分析者很少 ,现将我科 2例NPD尸检报告如下。病例 1,女 ,生后 10个月死亡。因间歇性发热 ,腹泻伴
<正> 各市、县、区人民政府,省人民政府各工作部门、各直属机构:省政府同意《陕西省药品医疗器械行政处罚较大数额罚款标准的规定》,现印发给你们,请认真贯彻执行。陕西省药
为了给西宁周边山地及相似生态区提供青海云杉人工林立地质量评价标准和营造林技术指导,在西宁周边山地选择有代表性的27块样地,进行系统的优势木生长状况和立地因子调查。通
对高效脱除技术进行分析,将当前最新相关科研成果和技术方案应用到烟气超净排放方案制定中,拟定列举四种不同的技术方案并做出了对比,均能实现机组烟气污染物超净排放。
随着城市高层建筑(超高层建筑)及重点工程(大型工程)不断兴建,建筑物在建设运营管理阶段的安全问题越来越被人们关注。而建筑物变形观测为其安全提供最有价值的变形数据及信
从我国改革开放起,实行市场经济过程中,我国已经历了几次大的经济波动。从九三年的房地产热到九六年的软着陆成功实现,从九八年的积极的财政政策到如今的该政策的淡出,经济增
雷公藤系卫矛科雷公藤属木质藤本植物,是我国传统中药中治疗自身免疫性疾病类风湿性关节炎的首选药物。雷公藤甲素是从雷公藤中提取的一种环氧二萜内酯醇,雷公藤甲素是治疗类
叙述了洋山深水港LNG接收站基本情况及LNG冷能利用价值,分析了洋山深水港LNG冷能利用现状及可利用途径,提出了实现LNG冷能利用的最佳途径,指出,LNG冷能利用为建设洋山深水港