基于最大熵模型的分词技术研究

被引量 : 0次 | 上传用户:linco87
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年来,随着中国信息产业的发展,汉语自动分词已经成为中文信息处理领域的一项基础性课题,也是智能化中文信息处理的关键所在。从目前能得到的结果看,汉语自动分词的算法数量不下几十种,但归结起来,不外乎两种方式:一种是智能切分,另一种是机械切分。智能切分是以基于符号规则的人工智能为基础的,也可以称为基于规则的分词方法,这种方法复杂程度高,实现难度大,难以将各种语言信息组织成机器可以直接读取的形式,因此目前智能切分系统还处在试验阶段;机械式切分复杂程度低,易于实现,但对歧义字段和未登陆词的切分常常出现错误,而且切分正确率和速度与词表的规模有密切的关系。汉语的词法约束很不规范,而且千变万化,给汉语分词带来了很大的麻烦。正是由于汉语分词的困难及其在中文信息自动处理中的重要地位,所以它的研究结果直接影响到语法分析、语义分析、语音识别、机器翻译、信息检索、信息过滤等诸多领域,所以受到人们的广泛关注。最大熵方法是建立统计语言模型的一种有效的方法,具有较强的知识表达能力。最大熵模型可以控制细微特征,具有可重用性,简单易于理解等优点,作为一种统计方法被有效的应用。它的缺点是训练速度非常慢,耗资源。在这篇论文当中,首先介绍了汉语自动分词通常所采用的分词技术,最大熵模型的基本原理、参数估计和特征选择算法,通过分析比较特征选择算法,提出了改进的方法,提高特征选择的速度。论文的核心工作是设计并实现了一个基于最大熵模型的汉语分词系统。系统包括预处理,模型训练,命名实体识别,词性标注等功能模块。最后通过实验验证了系统的性能,与其它分词系统相比,取得了较好的分词效率和分词精度。本文针对分词技术现有的发展和最大熵的模型特点,完成如下工作:(1)研究最大熵模型的原理,及其在特征选择和参数估计中所用的相应算法。(2)特征选取:实际上最大熵模型本身不涉及特征的选择问题,因为它只是确定一个合适的概率模型。但特征空间一般都比较大,如何选择冗余少的,有代表性的特征对模型的训练和使用很重要。针对上述问题,本文提出改进的特征选择算法。(3)系统构建:本文基于最大熵模型建立了一个中文分词系统,使用语料库进行最大熵模型的训练,并对文本进行词性标注,最终得到文本的分词结果。在系统构建的过程当中,采用先进行命名实体识别,然后再进行文本分词的方法,最后的实验表明,采用这种方式,分词效果良好。
其他文献
我国地域辽阔,受地形和地质条件的限制,很多高铁线路、客运专线等工程项目经常要跨越江河湖泊、峡谷、高烈度地震区等复杂地形。因此,高墩桥梁的发展和应用日益突出。国内目
环境舞蹈是目前在发达国家越来越被关注的当代艺术形式,舞者通过人的肢体即兴表现对环境、建筑、自然或城市空间的感知,同时用图片和影像及时记录,在记录中进行再创造,深入挖掘人
桔小实蝇Bactrocera dorsalis是一种世界性检疫害虫,在我国属于二类检疫害虫。桔小实蝇可危害250多种水果和蔬菜。文章综述了桔小实蝇的危害、分类鉴定、生物学和生态学等的
在温室环境中进行2个桑树品种的绿枝扦插试验,扦插基质为河沙,生根剂为萘乙酸(NAA)f清水处理作为对照,研究萘乙酸对2个桑树品种绿枝扦插生根的影响。结果表明:2个橐树品种的生根难
本文介绍了企业风险管理(ERM)框架的产生及其特点,并深入分析了ERM的本质属性,认为ERM框架实质上是一个战略风险管理框架且带有明显的管理会计特色,应将ERM框架纳入到战略管
在中华民族漫长的历史发展进程中,创造了独具特色的传统文化,在博大精深的中国传统文化中,中庸思想占据了十分重要的位置,在构建社会主义和谐社会的今天,适应我国社会的深刻
汉字在日本文化中占据着重要地位。在中日文化交流史上,汉字是作为中国文化的一部分传入日本的。公元10世纪,日本人借用汉字的字形与发音,创造出了平假名和片假名,从此开始了
本文分析了我国秘密准备金的含义及其形成方式,并将《企业会计制度》以及旧会计准则中对秘密准备的规定同新会计准则进行了比较,剖析了我国会计准则制定者对计提秘密准备金的
<正>无形资产分为可辨认和不可辨认两大类,前者包括专利权、专有技术、商标权、著作权、土地使用权、特许权等,后者是指商誉。本文就商誉的价值计量问题作些探讨。
股票市场在整个经济系统中扮演重要角色,其运行状况与国民经济息息相关,它是经济的晴雨表。机构投资者是市场的主体,他们拥有大量的资金,他们的投资策略和投资行为必然对市场产生