信息处理用粤方言文本自动分词标准研究

来源 :暨南大学 | 被引量 : 0次 | 上传用户:ewt43grfdger
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
粤方言文本分词在粤方言信息处理相关应用研究中有着重要的意义,解决好粤方言文本分词问题将推动粤方言信息处理由字处理向词、句处理研究迈进。由于分词的主观性较大,为使计算机自动分词有可重复的、可操作的标准,参考《信息处理用现代汉语分词规范》(GB13715),本研究的目的在于梳理粤方言词汇,以便研制一套适用于计算机自动分词的粤方言文本分词标准。不同于普通话,粤方言一直存在用字混乱的问题,如异体字、繁简字等问题,其中异体字众多是造成粤方言异形词的主要原因,这给粤方言分词造成了不利的影响。在前人研究的基础上,我们收集整理了常见的粤方言异体字,拟定了一个《粤方言异体字表》。同时,针对粤方言词类研究的实际,参考《北京大学现代汉语语料库基本加工规范》、中科院计算所汉语词性标记集(version 3)以及一些粤方言语料库的词性标注设计,我们拟定了一套粤方言分词词性标记集,并最终形成了粤方言文本自动分词标准的一套方案。利用现有及自建的粤方言语料库,我们对这套标准进行了试切分验证。最终结果表明,这套分词标准总体是切实可行的,可以在此基础上整合开发出具备较高实用价值的粤方言文本分词工具。
其他文献
手机二维码是将二维条码和无线移动终端结合的产物,它一方面具有二维条码的特点,另一方面利用移动网络实现手机增值服务。文章介绍了手机二维码在国内的发展现状和成功应用案
<正>互联网在给社会以及人们的生活提供重大便利的同时,也带来了诸多问题,其中最集中的问题之一便在于网络著作权的保护。广义而言,网络侵权不仅仅局限于著作权,还包括肖像、
目的分析14例英夫力西治疗难治性中重度溃疡性结肠炎的临床资料,探索英夫力西治疗国人溃疡性结肠炎的效果和安全性。方法对我院2006年-2011年经常规治疗失败的14例难治性中重
影响企业财务信息披露的因素有许多,本研究从两个构面着手研究:第一个构面是会计师事务所的审计质量控制对企业财务信息披露的影响,第二个构面是企业内部控制对企业财务信息披露
实时操作系统在实时测控系统中有着举足轻重的地位和作用,一个实时系统能否达到预期的目的和效果往往取决于实时操作系统性能的优劣。而实时操作系统中的关键技术仅仅被世界上
本文运用统计和比较及访谈等方法,以乌拉特中旗蒙古族人名为例,研究了乌拉特人名的命名特征和人名与自然、社会环境之间的关系。全文由导论、第一章、第二章、第三章、总结及
复方马勃冲剂由马勃、生石膏为主组成,用于治疗急性(化脓性)扁桃体炎已有30余年,临床疗效确切.本文报告复方马勃冲剂的解热、降温及抗炎作用实验研究.1 材料1.1 动物 Wistar
期刊
本文以德宏傣族景颇族自治州德昂族为例,比较传统德昂族服饰与变迁后的德昂族服饰差异,对民族服饰中蕴含的民族文化加以学习,分析民族服饰的发展和变迁。少数民族服饰的发展变迁
平定县位于山西省中部东侧,属阳泉市。在《中国语言地图集》中,平定方言属于晋语大包片。平定方言代词丰富,在形式、意义、用法等方面,有不同于其他方言的独特之处。本篇论文