基于多目标优化的中文分词模型的研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:ren_lian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言自身的模糊性和复杂性,使得中文分词问题在理论上很难找到一个好的解决方案。在实际应用中,中文分词也难以满足诸如中文搜索、文本分类和机器翻译的需求。通过分析各种不同的分词模型发现,多个分词要素对切分方案的共同作用常常体现和统一于一个概率公式,称为单目标评价函数。既然多个分词特征共同作用于切分结果,那么理论上可以利用多个评估函数从不同侧面评价结果。不同的侧面对应不同的评价函数,切分结果的求解也就变为优化多个目标函数的过程,分词问题因此化归为多目标优化问题。本文选择句子的二元词频概率、二元词性概率和句子子串长度方差作为目标函数。如果把切分方案看做一个个体,那么把不同的分词方案组合成群体,利用交叉、变异和选择操作对种群进化,利用环境约束操作对种群个体约束,从而形成多目标优化的整体流程。其中,利用多目标向量对所有个体进行Pareto排序,同时为了保持群体多样性,引入聚集距离的概念,通过Pareto排序和聚集距离构建偏序关系,继而选择优秀解。受个体进化在自然界中会受到环境影响的启发,针对分词问题加入了环境约束操作,约束个体变异和进化的方向,同时克服进化算法在局部搜索方面的缺点。在实现的过程中,对句子切分子串信息值标注,信息值可以反映子串的词类属性(人名或者地名等)、歧义的位置属性(和前串还是后串发生歧义)以及确定属性(可以确定的符号、在库词等)。最后进行了歧义测试、整体测试以及基于多特征的人名识别测试,从测试结果来看,利用多目标优化模型解决中文分词问题也许是一种崭新的方法。
其他文献
随着网络技术的迅速发展,网络安全问题已经成为当今网络技术的研究重点。通常黑客和病毒是通过系统中存在的漏洞对目标主机进行系统攻击的。漏洞扫描技术就是对系统中存在的
构件技术已成为软件产业发展的关键技术之一,推行基于构件的软件开发是当前软件生产的世界潮流。构件的描述和检索是充分发挥构件技术优势、实现软件复用、构筑高质量软件产品
随着互联网技术的快速发展,使得Web技术得到了广泛的应用,并且获得了巨大的成功。Web技术有着良好的通用性、平台独立性和交互性。信息化的不断发展,促使Web技术应用到不同的
随着语义Web的快速发展,行业应用数据越来越多地选用RDF格式进行发布,RDF语义数据规模呈现爆炸性增长趋势,三元组条数已经远远超过百亿。RDF数据规模的急剧增大加深了语义数
传统的网络入侵检测技术使用手工分析和编码的方式已经不能适应网络新攻击层出不穷和数据量日益增大的趋势,知识发现能从数据集中识别出有效的、新颖的、潜在有用的模式,数据
Android的广泛应用使得Android系统缺陷越来越受到关注。由于Android平台存在一些安全机制问题,使得简单的权限机制不足以用来保证手机端软件行为的安全。而传统的Android框
随着监控系统在工业、城市建设等各个行业发挥越来越重要的作用,用户对监控系统也提出了更多的需求。然而目前市场上的监控系统组态软件尚不能满足市场需求,在监控系统软件的
大力发展公共交通作为解决城市交通问题的方法已成为社会共识。但是单纯增加公交车数量或公交线路并不能从根本上解决问题,单纯的数量增加反而会加大城市交通的压力。因此只有
近年来,深度学习在自然语言处理领域受到了更多的重视,基于深度学习的神经语言模型和词句嵌入模型相继被提出,这类模型以其高准确率、低复杂度的优点被学术界和工业界广泛研
在互联网蓬勃发展的今天,互联网上的信息更是浩如烟海。人们在享受互连网带来的便利的同时,却面临着一个如何在如此海量的内容中准确、快捷地找到自己所需要信息的问题,由此互联