规则与统计相结合的中文分词方法研究

来源 :山西大学 | 被引量 : 13次 | 上传用户:kfqwyf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的到来,计算机在人们生产生活的各个方面作用越来越突显。目前,在机器翻译、语音识别、信息检索等许多领域对语料库的使用越来越多,要求也越来越高,对语料库进行分词成为建立汉语语料库资源的首要任务。随着中文信息处理研究的深入,中文文本自动分词问题已经引起相当程度的重视,成为中文信息处理的一个前沿课题。经过几十年的研究,中文文本自动分词技术取得了令人瞩目的成果,出现了一些实用的自动分词系统,这些分词系统在分词的精确度和分词速度方面都具有相当水平,但无论按照人的智力标准,还是同实用的需要相比较,还有一定的差距。在本文中,我们以加工后的训练语料为研究对象,提出了一种规则与统计相结合的中文分词方法。该方法根据中文分词中所遇到的问题,对其进行归类并利用规则与统计相结合的思想对分词结果进行逐步的优化,最终达到一个较理想的结果。主要的研究内容有以下几方面:1.通过对大量训练语料的统计与分析,建立歧义字段资源库,深入分析了歧义字段的内部特征和上下文环境特征,为解决歧义字段问题建立了语言学基础。对训练语料中所出现的歧义字段进行真伪歧义分析,建立相应的真歧义库和伪歧义库。2.统计并分析真歧义与伪歧义各自不同的语言现象和规律,对其进行进一步的分类,为歧义字段的处理策略提供依据,进而为概率模型的建立提供支持。此外,在概率模型的建立过程中,使用了《同义词词林》作为语义资源,对歧义字段的上下文环境进行了语义扩充。3.通过对海量真实语料的分析和统计,提取其中所出现的未登录词,充分考虑未登录词的内部结构,抽取和统计未登录词的内部信息,建立了未登录词资源库,并利用内部信息建立未登录识别的概率模型。4.通过对未登录词的上下文环境信息的分析,提取未登录词识别的实用规则,建立未登录词识别的规则库,进而提高概率模型的识别效果。我们通过对微软亚洲研究院2005年提供的SIGHAN简体中文语料库(MSR)的400万语料进行模型的训练和检测,发现该策略在歧义字段的处理上有较好的效果。为了进一步检验规则与统计相结合的分词方法的有效性,我们参加了SIGHAN第四届国际中文自然语言处理Bakeoff SIGHAN 2008国际分词评测,并参加了NCC分词的开放测试,并在词表词识别率上达到96.9%,进一步证明该模型在解决歧义字段问题是有效的。
其他文献
近日,广东省人民政府发布《广东省关于加快新能源汽车产业创新发展的意见》,为加快新能源汽车(包括纯电动汽车、氢燃料电池汽车和插电式混合动力汽车等,下同)产业创新发展,促进汽车
报纸
随着经济社会的不断发展,房屋建筑的规模和数量也在不断增加,人们对房屋建筑的质量也提出了更高的要求。钢筋混凝土结构施工技术是现代房屋建筑的主要技术之一,是提升房屋建
上期我们对BT下载软件进行了横向评测,下载了那么多好东西,自然要将它们保存起来,本期针对光盘刻录软件进行横向评测。
近两年,在我县苹果园部分红富士品种上发现有苹果疱斑病发生,造成了一定的经济损失,特别是树势较弱及感染腐烂病的苹果树,受害尤为严重。  1 症状  果实皮孔四周形成紫黑色病斑。一开始于果实表面气孔处现出很小的水渍状、隆起的绿色泡斑,后病斑扩大变黑,个别病斑向果肉延伸l~2毫米,严重的一个果上生有几十个甚至上百余个病斑。  疱斑病除危害果实外,也危害叶片,被害树细弱枝条的叶片中脉也有逐渐坏死现象,叶背
探讨腹腔镜下直肠癌根治术的围手术期护理。选择临夏州人民医院2018年11月—2019年11月收治的直肠癌患者56例,根据电脑随机盲选法分为观察组和比较组,每组各28例,比较两组的
提起QQ秀,我想各位Q迷都不会陌生。它是我们在QQ上的虚拟形象,关系到我们在QQ上的面子问题。当你看到好友穿上的漂亮QQ秀而羡慕不已自己也想找件来穿穿时无奈却没有足够的QQ币
“用字母表示数”是学生正式学习初等代数的开端,这节课明确地引入代数和符号的概念,抽象性和概括性都很强,对于刚刚接触代数的学生来说很难理解。教师应在教学前循序渐进地
目的分析急性戊型肝炎(AHE)患者血清抗-HEV IgM、抗HEV-IgG和HEV RNA变化规律。方法2016年1月~2018年3月北京佑安医院就诊的AHE患者217例,动态检测血清抗-HEV IgM、抗HEV-IgG
目的观察卡巴胆碱对内毒素血症小鼠肠道屏障功能的保护作用及机制。方法将C57BL/6小鼠随机分为对照组、内毒素血症组、卡巴胆碱组、α银环蛇毒素组,每组10只。腹腔注射10 mg/
日本葡萄真正栽培是明治和大正时代(1911—1912年),当时各地积极引进国外品种并形成了产区。随着品种的改良,现在栽培以欧美杂种为主的四倍体葡萄品种,并确立了设施栽培、利用赤霉素进行无核化栽培的技术,形成了葡萄产业,2008年日本葡萄的产值为76亿元人民币(下同),其栽培面积仅次于柑橘和苹果位于第3位。日本葡萄生产的目标主要利用果实的高品质占领市场,目前出口的国家(地区)主要是台湾和东盟。  1