基于统计的中文分词算法研究

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:liongliong487
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:最近几年大数据、人工智能的迅猛发展,对数据的采集、加工、挖掘也得到了长足的发展,信息的价值逐渐凸显,智能推荐、语音识别等高价值的信息处理越来越多的改变生活。如何从互联网上中文网页内容提取出有效的识别、提取出有价值的信息是当今信息研究的重要课程。中文分词作为中文文本处理的重要组成部分,本文作者在对当前分词的基本问题,以及主要分词方法的优缺点进行思考和分析的基础上,重点分析了基于统计的分词方法,分析了基于统计的分词器的设计理念与算法思想。文中涉及中文分词的难点分析,隐含马尔科夫模型的处理,维特比路径优化算法。
  关键词:中文分词;隐马尔科夫模型;路径优化问题;维特比算法
  中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2019)04-0149-02
  对于自然语言处理,词是最小的有意义的组成部分。中文相对于英文在“词”上有明显的难度。拉丁文语系,词与词之间是有明显的分隔符的存在,而这一點在中文是不存在的,中文词之间没有空格符,只能通过对于单个字符、句子、或语句段来划分。但是中文文本的分析,必须转换为一个个的最小语义单位“词”才能进行。因此中文的分词,不仅是中文自然语言处理中的重要环节,也是中文进行更高层次信息处理,如:语义,语句顺序等的基础。
  1 中文分词发展历史和现状
  中文分词早期方法,也是最简单的方法就是查字典。这种方法最先由北京航空航天大学的梁南元教授提出。查字典的方法,就是建立一个字典,将句子从左向右扫描一次,将句子与词典进行匹配,遇到字典里面包含的词语就标识出来。遇到复合词,找最长的匹配词切割。这个方法简单,可以在复杂度不高的前提下处理70%~80%的分词问题。20世纪80年代,哈尔滨工业大学的王晓龙博士进一步将查字典的方法理论化,发展成为最少词数的分词理论。就是将一句话分成数量最少的词串。基于查字典的方法过于简单,不适用于稍稍复杂的问题,有一个无法避免的问题,即切分遇到二义性词就无能为力。
  二十世纪九十年代之前,许多海内外学者试图用一些文法规则,来解决二义性问题,但最后都不是很成功。直到1990年前后,清华大学的郭静博士用统计语言模型,成功地解决了分词的二义性问题,成功将中文分词的错误率降低了一个数量级。
  基于词典的中文分词方法是该领域的主要研究方向,主要包括基于规则、统计、字标注三大类方法。早期主要使用基于规则的方法,即根据中文的特点建立一些处理规则,计算机按照这些处理规则处理文本使之歧义消除。二十一世纪以前,由于这种方法类似于语言学思维,基于规则的分词方法非常流行,占据了中文分词研究绝大部分。但后来发现基于规则的分词方法效率低下,规则越来越庞大复杂,而且语言学家对词语的定义并不完全相同,这种方法并不能如人所愿。于是基于统计的方法慢慢成为主流,其主要思想是使用某个数学模型作为工具,最常见的且比较成熟的有隐马尔科夫模型、最大熵模型、条件随机场模型等。自从基于统计的分词方法提出来之后,切分速度和准确度都有了明显提高,明显优于基于规则的分词方法。2002年,第一届SIGHAN研讨会上,第一篇基于字标注分词的文章发布,基于字标注分词的模型的产品接二连三的出现,技术也越来越成熟,其中比较出名的有Low开发的系统,以及Nianwcn Xuc的系统,它们都有不错的成果。
  2 基于统计的中文分词的基本原理
  由于分词满足隐马尔科夫数学模型,利用隐马尔科夫模型计算出各种分词后,句子出现的概率,再利用维特比算法求出最大值,最终找到最好的分词方法。
  3 基于统计的中文分词的核心算法
  3.1 基于隐含马尔科夫模型的数学模型
  隐含马尔科夫模型是马尔科夫链的一个扩展,任何时刻t的状态St是不可见的,所以观察者没分通过观察一个序列s1,s2…st来推测转移概率等参数。但是隐含马尔科夫模型每个时刻t都会输出一个符号ot,ot是和st相关且只和st相关的独立输出假设。
  第二步:针对每一步Ti,计算这一步中的每一个可能分词的最佳路径
  Best(wi,Tn)=max(Best(wj,Tn-1)P(wi|wj))
  其中Best(wi|Tn) 表示分词wi在Tn时与之前所得到得分词组成的联合概率中最佳概,即当前阶段所对应字串最可能的分词,对应图就是当前阶段最可能的分词所组成的最佳路径。wj表示wi在最佳路径上的前向词,p(wi|wj)是转移概率,到最后时刻Tm时我们得到最后结果,即完整最佳分词的路径,结合图1,从T1进行到T6最后一步,就得到最后结果,最佳分词路径。
  4 总结与展望
  基于统计方法的中文分词方法,经过不断的改进中文分词的精度已经达到95%以上,已大体解决了中文分词的问题。但并不是说中文分词已经非常完美了。对于未登录词语的处理一直一个大问题,未登录词大致分为两类:(1)新出现的通用名词或专业术语(2)专有名词,如:人名、外国译名、地名、机构名等。第一种情况的未登录词理论上虽然可以预期,可通过人工添加词表中,但是实际操作中并不容易做到。后一种情况难度更大,完全不能预测,无论词库字典如何庞大,都不能概括。松茂松等指出,未登录词对分词精度的影响超过了歧义切分,可见未登录词在分词系统中占有举足轻重的地位。虽然孙茂松、吴立德、刘挺、邹嘉彦等做了大量的工作,在一定程度上提高了未登录词的分词效果,但效果仍然不很好。后期仍可以做大量的研究。
  参考文献:
  [1] 孙茂松,邹嘉彦.汉语自动化分词研究评述[J].当代语言学,2001(1):22-32.
  [2] 魏晓宇.基于隐马尔科夫模型的中文分词研究[J].计算机教育,2007(1):885-886.
  [3] 董振东.汉语分词研究漫谈[J].语言文字应用,1997(1):107-112.
  [4] 黄祥喜,书面汉语自动分词的“生成一测试”方法[J].中文信息学报,1989(4):42-49.
  [5] 梁南元.书面汉语自动分词系统—CDWS[J].中文信息学报,1987(2):44-52.
  [6] 刘开瑛.现代汉语自动分词评测技术研究[J].语言文字应用,1997(1):101-106.
  [7] 刘源,梁南元.汉语处理的基础工程—现代汉语词频统计[J].中文信息学报,1986(1):17-25.
  [8] 于江生.隐Markov 模型及其在自然语言处理中的应用[M].北京大学计算语言学研究所,1999.
  [9] 陈桂林,王永成,等.一种改进的快速分词算法[M].计算机研究与发展,2000 .
  [10] 苗夺谦,卫志华中文文本信息处理的原理与应用[M].清华大学出版社,2000.
  【通联编辑:梁书】
其他文献
摘要:作为教育信息化的一种先进理念形态,智慧教育当前已经实现了广泛应用,备受全球化教育积极关注。而国内很多高校也开始着手建设指挥校园,在智慧校園建设中,智慧学习环境是其关键所在。因此,高职院校在产业变革与人才建设标准不断提升的趋势下,面对自身所存在的主要问题,提出了基于教学模式变革为核心,强化顶层设计,提供多元化服务等智慧学习环境建设策略,以期能够在很大程度上提高智慧学习环境建设的实用性,实现高职
根据车辆轨道模型,从频域和时域两方面分析了深圳地铁道床动载荷,得出了道床动载荷传递函数,根据传递函数找出了最不利波长,并参照铁路对短波不平顺管理标准,得到了道床最大动载荷
对土工格栅及土工格室加筋砂垫层处理松软地基进行了室内大模型试验,对其抗变形能力进行了较为详尽的试验及理论分析。试验结果表明,加筋垫层能够有效分散载荷,显著提高地基K30
蒙山县西河镇龙蟠村中村片15户果农,在2001年春种下迟熟槿柑15hm^2,在果农精心护理下,果树长势良好,2003年开始挂果,但在2004年6月下旬~7月中旬出现两次比较严重的病害,引起果树严重
辣椒作为茄果类蔬菜是我国南方大部分地区主要栽培蔬菜之一,因其喜温,不耐霜雪,主要以春夏栽培为主,秋季亦有栽培。因春夏季气温变化大,降雨集中;秋季易发生秋旱等不利气候条件,对辣
在格蕴涵代数基本结构基础上进一步研究了格蕴涵代数的模糊滤子的性质,指出了模糊滤子可以诱导出格蕴涵代数的一簇同余关系,并研究了这簇同余关系的代数结构及这些同余关系所
恭城瑶族自治县位于广西区东北部,桂林市的东南部.年平均气温19.7 ℃,属岭南中亚热带季风气候区.适宜种植亚热带、温带型水果.年均降雨量 1 439.7 mm,但年际间降雨量相差较大
兴安县从20世纪80年代中期开始从北方引进葡萄以来,至今已有20多年的历史,目前种植面积达4000hm^2,带动了广西葡萄生产的发展,是当地农民致富的主导产业。随着时间的推移,葡萄病害
摘要:随着我国社会经济的不断发展,科学技术地不断进步,现代素质教育的发展下,注重培养学生的创新能力成为现在教育的重要部分。创新对于国家的兴旺和对民族的进步都有着非常重要的作用。在高校的素质教育当中,培养学生的创新思维能力和创新能力非常关键。随着网络信息技术的发展,高校计算机的教学模式主要是老师通过一对多的形式传递教学内容以及实际操作,本文主要分析高校计算机教学的现状,根据当前高校计算机教学中学生创
校园绿化对于改善校园环境,为师生创造环保、安静、舒适的教学环境,促进学校教育工作及建设文明校园具有十分重要的意义。