基于条件随机场和增量学习词典的中文分词

来源 :天津财经大学 | 被引量 : 0次 | 上传用户:lanrenlaopan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文自动分词是指使用机器学习根据特定规范将连续的字序列重组为词序列的过程,是自然语言处理的第一步,这对自然语言处理有着重大意义。准确的中文分词结果能够为后续语言处理打好基础,以便更好地完成后续文本分析等工作。当前中文分词存在的主要难点在于切分歧义以及未登录词的识别。这些问题的存在会导致中文自动分词容易产生错误的分词结果,使机器学习不能正确理解文本的含义,误导后续自然语言处理的工作。因此本文对中文分词模型的研究重点便放在解决这两个问题上,以求提高分词准确率。为了解决基于当前单一模型无法解决的分词歧义及未登录词识别任务,本文在分词的各个阶段协调地选取最佳的分词模型进行组合,以条件随机场中文分词模型为基础模型,提出一种获取增量学习词典信息的方法对其进行改进,为中文分词研究提供一种新的研究思路。本文方法充分挖掘了训练语料中符合构词规则且多次出现的固定组合的信息,以解决中文分词中的跨越标记切分现象,并且对增量训练集进行主动学习,识别其中最有争议的小部分词语以修正语境迁移时的未登录词识别问题。首先利用全模式匹配过滤方法识别训练语料中固定搭配、反复出现且有意义的子串构建初始词典,利用初始词典分别对训练语料和增量训练语料进行逆向最大匹配切分,并对切分后的训练语料进行词位标注,建立条件随机场中文分词模型;而后对增量训练集进行初步切分,得到分词结果,利用N-gram语言模型找出其中最易出错的句子,人工识别出其中易错词语加入初始词典形成最终的增量学习词典;最后基于最终词典采用逆向最大匹配方法对测试语料进行匹配切分,再次调用模型参数对其进行分词。本文分别采用四词位和六词位标注集以及相应的特征模板,在国际中文分词测评Bakeoff-2005的语料上进行封闭训练和测试,实验结果表明,与基于字标注的条件随机场中文分词方法相比,本文提出的基于条件随机场和增量学习词典信息的中文分词模型有助于提高分词准确性,且在对未登录词的识别方面有较大的提高。
其他文献
玉米赤霉烯酮(Zearalenone,ZEA)是广泛分布在农作物当中的一种霉菌代谢产物,可引起动物的生殖毒性。睾丸支持细胞(Sertoli cells,SCs)是睾丸中的屏障细胞,其乳酸代谢的过程是维持睾丸内部能量稳态的重要过程。为揭示ZEA对雄性动物的生殖系统的影响及其机制,本试验以大鼠原代SCs建立ZEA体外中毒模型,利用Western Blot、RT-PCR、免疫荧光等技术,探讨了 ZEA对
针对电子政务领域传统专家评审明显存在的主观性和不一致性问题,科学管控政府专项化资金投入,并打造一个相对公平的外包与竞标环境,建立一个智能化的成本预算系统来辅助管理决策亟待解决;传统研究大多关注于构建软件后期成本预测模型,所使用的公有数据集为已完成开发的软件项目信息,但受限于应用场景、软件类型、成本特征定义及开发技术等,目前没有具有普适和权威性的成本预测模型,另外,由于软件开发早期成本信息存在较大获
随着国民经济的不断提升,人们对玉石的需求也逐渐增加,而由于翡翠、和田玉、独山玉等玉石类矿产资源的特殊天然特性及稀少性,再加上对玉石的用途逐渐增加,需要开发除这些名玉
目的:糖尿病肾病(Diabetic Nephropathy,DN)是糖尿病最常见的微血管并发症之一,发病机制复杂,且与多种因素密切相关,包括氧化应激、细胞因子表达异常、血流动力学异常、糖脂代谢紊乱以及遗传基因易感性等,目前尚无阻止DN发生发展的有效治疗方法。本实验以C57BL/6J小鼠为研究动物,采用高剂量单次腹腔注射链脲佐菌素(Streptozocin,STZ)诱导形成1型DN小鼠模型,初步分析
党政合署办公对于协调中国特色党政关系,优化国家治理体系和提升国家治理能力,均有着非常重要的理论与现实意义。党政合署带来的职能融合可能导致责任的界限模糊,有权必有责,用权需要监督。因而在适应合署办公机关的特殊性的基础上,如何构建完善相应的问责机制就显得尤其重要。通过厘清合署办公的发展历程,对其进行规范性分析界定,了解我国党政合署办公的困境。党政合署办公在精简人员、提高效率以及优化党政关系方面都有着亮
目前,我国证券公司的业务收入来源仍然以证券经纪业务为主。同时,证券公司盈利模式较为单一、同质化竞争问题比较突出。在互联网金融及移动证券的不断冲击下,近年来证券行业平均佣金率水平持续下降,传统盈利模式及经营方式面临较大挑战。与此形成鲜明反差的是财富管理市场得到持续迅猛发展,形成了客户多元化、需求多样化的局面。为此,证券公司需要改变以传统经纪业务佣金为主要收入的盈利模式,发展多元化业务运营体系,向全面
琥珀形成的地质年代久远,大部分形成于晚古生代石炭纪至中生代白垩纪和新生代第三纪地质时期;琥珀的产地众多,地球上除南极洲外,各大洲均有产出,欧洲的丹麦是第一个发现琥珀
目前,我国铁路主要采用交-直-交传动系统。其中,由于单相整流器自身的特点,其输出直流电压将包含两倍网侧电压频率的脉动,既拍频电压。由于拍频电压的存在,一方面将导致网侧电流中出现低次谐波,影响网侧电能质量;另一方面牵引电机会受到拍频电压的影响,因而出现电流畸变以及转矩波动等拍频现象,且当电机工作频率处于拍频电压频率附近时拍频现象最为严重,十分不利于列车的安全稳定运行。因此,消除或减弱拍频现象意义重大
纺织品表面瑕疵的有效检测与控制是现代纺织企业控制成本及提高产品竞争力的关键环节之一。随着人工智能与计算机科学的飞速发展,计算机视觉已经在工业表面检测领域中得到越
少数民族地区的自然和文化遗产具有原生态和多样性的特点,以此为依托,近年来我国民族旅游快速发展,民族旅游产品以其独有的民族特色受到国内外旅游市场的青睐。我国进入大众化旅游时代,民族文化旅游也备受业内关注,在国家和地方一些列专项及相关政策的指导下迎来跨越式发展机遇。2012年,我国正式开启了对国家传统村落的调查和评定工作,其中以少数民族为主要人口组成的民族传统村落,展现了我国少数民族独特的风俗习惯、生