【摘 要】
:
随着信息技术的高速发展,中文信息处理在计算机各个领域得到了长足的发展,而中文分词是中文信息处理的基础所在,由于词是连接句子与信息处理平台的中间环节,因此中文分词的处
论文部分内容阅读
随着信息技术的高速发展,中文信息处理在计算机各个领域得到了长足的发展,而中文分词是中文信息处理的基础所在,由于词是连接句子与信息处理平台的中间环节,因此中文分词的处理结果直接影响到中文信息处理的准确性,成为制约中文信息处理平台处理能力的瓶颈所在。本文对中文自动分词处理技术的现状,原理、流程,评价指标以及国内外发展状况进行了一个综述,对各种分词算法进行了深入的学习和研究,在分析了目前的各种分词算法的优劣所在之后,提出了改进思路。使用支持向量机与向量空间建立了新的CWSSBS模型,由于支持向量机具有在有限样本的训练下能够建立一个复杂的分词模型和实现较强的自我学习能力,而且使用倒排字典的方法来保证常用的,最新的未登录新词处于最优先地位,因此所改进的CWSSBS自动学习未登录新词的能力得到了有效的提高。在支持向量机的作用下,字典具有自我学习的功能,从而使得本系统还具有较高的陌生环境适应性以及强壮的可移植性,并且在人工以及机器监督机制的干预下能够及时的更正自动学习中的错误;在歧义处理部分,提出了一种改进的正向匹配与逆向匹配相结合的歧义采集方法,在歧义处理过程中,采用最长成字法来保证了歧义字段的处理,达到了最大程度上消除歧义的目的。通过系统结果的仿真分析,可以看到改进的CWSSBS跟原有的系统相比,在歧义问题的解决和字典自我学习的功能方面得到了很多的提高,但由于时间,环境等条件以及能力的限制,未来需要进一步的探讨和改进。
其他文献
自动协商的研究具有重要价值,它将传统活动中的协商经验应用于智能化的自动协商中,研究传统活动中协商经验的方法,采用人工智能技术对协商的决策函数、协商提议、协商策略等进行
科学技术的飞速发展极大地改变了人们的生活,但由科学技术推动着的企业生产设施等具有重大安全隐患的危险源,却时刻威胁着人们的生命和财产安全。因此,加强重大危险源的实时
随着生命科学的快速发展,在分子生物学中的一个主要挑战是揭示基因表达的调控机制,也就是说要知道基因表达的激活和抑制怎样实现的。面对这个挑战的一个主要步骤就是识别调控
随着网络的普及及发展,推荐系统越来越多地被应用在实际的商业应用中,越来越多的企业看到了推荐系统的价值。但是推荐系统在应用过程中,存在着数据稀疏性、可扩展性、用户兴
公开密钥加密体制(Public-key Encryption Scheme)也叫非对称加密体制,它的提出使密码学发生了一场根本性的变革,在此体制中使用两个密钥,即加密密钥和解密密钥,在与多个用户
随着Web 2.0的到来,网上信息量急剧增长,用户可利用的数据也越来越丰富。然而,用户不得不耗费大量的时间来获取有价值的信息。特别是大数据时代的到来,信息过载问题已然成为
人脸表情识别(Facial Expression Recognition,简称FER)是人工智能中一个非常重要且十分复杂的课题。人脸表情识别是指利用计算机对人脸图像进行分析,然后对其为哪种表情进行
数据空间(Data Space)是作为解决当前数据管理所面临的挑战而提出的一种新的数据管理技术。随着信息技术的不断发展,数据源多源和多样化特点使的传统以关系数据结构为基础的数据
随着互联网的快速发展,网上的信息呈指数级增长,涌现了海量的XML数据,如何处理这些数量庞大的XML数据已经成为非常重要的研究课题。关系数据库技术已经十分成熟,在数据管理中
MEMS是将微电子技术与机械工程融合到一起的一种工业技术,在近年来得到了越来越广泛的应用,在工业、信息和通信、航空航天、航海、医疗和生物工程、农业、环境和家庭服务等领