基于CRF的哈萨克语句法分析系统设计与实现

来源 :新疆大学 | 被引量 : 0次 | 上传用户:buugly
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
哈萨克语的语言处理研究历经词性标注、命名实体识别、组块分析等过程,现进行到句法分析,取得较好成果。本论文主要研究基于短语的哈萨克语句法分析,设计并实现一个哈萨克语句法分析系统。本论文中句法分析系统使用微软开发的Visual Studio 2015编程软件、C#编程语言进行系统开发。论文中进行句法分析主要使用的模型是条件随机场模型,该模型在最大熵模型的思想上提出,是基于统计的判别式模型,用来标记和切分序列化数据,有效解决了标记偏置问题。论文中系统在实现过程中用到由Taku Kudo编写并发布的CRF++工具包,版本号0.58,Windows版本。在系统设计实现过程中,主要完成四方面工作:1.语料处理。CRF++工具包所需要的语料格式为一个词占据一行的形式,而已有语料的格式为带有短语和词性标记的一个句子多行分级显示的形式,因此需对其进行格式转换、短语切分、添加BIO标记以及训练和测试语料划分等处理。2.CRF调用。Windows版本的CRF++工具包是.exe形式的可执行文件,所以系统在使用该工具包时需要通过接口来调用。在CRF调用过程中,需进行特征模板的设计优化、CRF接口设计、调用CRF工具包根据不同特征模板对训练语料进行训练并生成不同语言模型、利用不同语言模型对测试语料进行测试等工作。3.模型评测。首先对CRF测试出的语料进行句子合成处理,然后进行各项评测指标的计算。本论文使用的模型评价体系为PARSEVAL,主要评价指标为准确率、召回率和F值。在评测结果界面设计中,参照由纽约大学的Satoshi Sekine和宾夕法尼亚大学的Michael John Collins合作开发的Linux版本的EVALB工具包。4.句法分析演示。输入一句或者多句未经处理的句子,通过系统进行词性标注、句法分析、句子合成等操作,最终输出带有词性和短语标记的层次化句法分析结构。
其他文献
目的:胰腺癌作为恶性程度较高的肿瘤类型,预后很差,生存质量堪忧。肥胖与胰腺癌关系密切,除引起全身慢性炎症反应等促癌作用外,肿瘤微环境中脂肪细胞与胰腺癌细胞对话发挥生
汉语程度副词一直以来都是对外汉语语法教学的重点和难点,对初学汉语的阿富汗人来说比较难把握。作为阿富汗留学生,我深知在学习汉语时阿富汗人会带有一定的主观性,加上我们
第一部分4-苯基丁酸对糖皮质激素诱导的MIN6细胞内质网应激保护作用的研究【背景和目的】糖皮质激素(GC)可显著降低机体的葡萄糖耐量,其原因除了GC可显著增加胰岛素抵抗外,GC
目的:镁合金作为一种可降解的金属材料,广泛的应用于骨移植替代物方面。但是镁合金在含水环境下过快的降解速率会引发生物安全性问题,并且很难长时间的保持其机械性能的完整
明清时期,《字汇》流行甚广,但其本身缺漏较多,因此出现了一批补校之作,《字汇补》是其中最重要的一部。《字汇补》在部首设置、说解体例等方面大体沿袭《字汇》编撰体例。《
可控核聚变作为解决人类未来能源危机的一种清洁能源,正受到各国大力研究。激光惯性约束聚变是可控核聚变的关键技术途径之一。具有均匀DT冰层的冷冻靶是惯性约束聚变点火的
生物特征识别技术已经逐渐代替传统的加密认证方式,其中离线手写签名鉴别技术研究是生物特征识别技术研究中的重要领域之一。离线手写签名鉴别现已被应用在很多方面,例如金融、司法等。离线手写签名以静态图像的形式进行存储,图像仅存在静态特征。因此,提取出有效的签名图像特征,在进行离线手写签名鉴别研究中至关重要。本文对本地自建的维吾尔文手写签名数据库和CEDAR数据库中的离线手写签名鉴别进行研究。通过对签名样本
移动公司代维护工作能够有效提高资源利用率,但是移动运营商与代维护公司之间,存在着较多的问题,包括巡检基站代维护的问题、分布式代维护的问题等。这就需要对代维护的流程操作进行优化,使数据管理得到完善,形成一定的预防机制。此次研究提出了移动公司代维护系统,主要是通过模块化采集与分析代维护的巡检数据,形成了精细化的数据管理,并设计与实现系统。此次研究对代维护流程、现场管理方式进行了设计,包含了用户管理模块
第一部分滤泡细胞毒性T细胞与NOD鼠免疫损伤进程的研究目的:在1型糖尿病的致病过程中,自身反应性CD8+T细胞通过与MHC I类分子递呈的抗原肽相互作用而被激活,通过释放穿孔素和
本文基于东疆地区1960-2016年气温、降水资料以及2000-2016年MOD13Q1数据,采用线性回归、累积距平统计量与信噪比检验方法、最大值合成法、小波分析法,对东疆地区气候变化特