综合字典和统计分析的中文分词系统的研究与实现

来源 :武汉理工大学 | 被引量 : 27次 | 上传用户:wanchh520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文分词技术主要包含以下三个研究方向:理解分词,机械分词以及统计分词。基于理解的分词方法研究尚未成熟,所以,绝大部分中文分词系统是应用机械统计相结合的方法。在目前主流的词典和统计相结合的分词系统中,统计策略和词典设计的关系往往是相互独立的,词典主要是作为机械分词的标准,而基于统计的方法主要是为了解决歧义问题以及未登录词的识别问题。本文所阐述的中文分词系统,将基于分词核心词典的机械分词和基于统计的方法组成了一个有机的整体。系统将统计得出的结果作为分词核心词典的输入,对于待切分文本来说,对于未登录词和词典词条,本文算法的本质均是先基于统计的方法扩充核心词典,然后采用基于字符串匹配的分词方法切词。总体上讲,本系统具有以下三方面的特点。专用性:适合计算机学科专业领域的分词,这主要取决于训练文本的选择;分词效率高:算法核心是基于字符串匹配的方法;分词精度较好:利用简单统计量模型与机械分词的有机结合解决了部分歧义词和未登录词问题。解决方案中涉及到的关键技术主要包括以下三个部分:第一、分词词典的设计。在整体结构上,词典分成两级结构,临时词典和核心词典。临时词典是通过统计方法将新词条向分词核心词典中输送的中间容器。核心词典是分词系统中切分的唯一依据,为了提高查询速度,结合中文二字词比例较大的特点,核心词典采用双层哈希结构。第二、统计策略的制定。歧义词和新词的识别主要依靠基于统计的方法,本文选择了基于互信息原理的方法进行词频统计。该统计模型,原理简单,实现方便,有较强的实用价值。第三、机械分词方法的应用。为了简化系统结构,提高算法效率,核心分词模块中,根据汉语的后重心特点以及“长词优先”准侧,我们选择逆向最大匹配算法。总体上讲,系统在初始化后即能够满足一定程度的应用,准确率等分词精度指标保持在97%以上;选择合适的训练语料,经过一定强度的统计学习后,分词精度参数可以提高将近一个百分点左右;分词效率指标不会发生明显变化。
其他文献
由于传统的敏感数据方法主要针对单一敏感属性的数据,然而很多现实应用中,发布的数据往往涉及到多个敏感属性。目前多敏感属性的数据发布方法成为重要的研究方向,但由于不同
众所周知,软件危机的主要特征是软件开发难度大,生产效率低,其正确性和可靠性得不到保证,而高级程序设计语言中的泛型语言机制和泛型程序设计,也称为参数化程序设计,是提高软
基于发送端和接收端多天线输入输出(Multiple-Input Multiple-OutPut,MIMO)的技术是LTE 系统中的关键技术之一,其最为显著的优势在于能充分利用随机衰落和空间多路径传播来提高
随着人工智能技术的飞速发展,作为人工智能领域的重要分支,机器学习同样获得了长期而稳定的发展,目前已经成为学术界研究最多的领域之一。其中,监督学习是目前研究的最多、应
现代服务业是指在工业化比较发达的阶段产生的、主要依托信息技术和现代管理理念发展起来的、信息和知识相对密集的服务业。服务管理平台是现代服务业的基础支撑平台。传统的
计算需求日益增多的今天,人们普遍采用GPU(Graphics Processing Unit)作为运算加速设备,现在利用通用显示核心(General-Purpose GPU,GPGPU)计算技术已经成为任何海量数据的必
随着通信技术、嵌入式计算技术和微电子技术的飞速发展和日益成熟,传感器网络引起了人们的极大关注,这种网络系统可以被广泛地应用于国防军事、环境监测、医疗卫生、智能家居
供水系统是城市重要的基础设施,保障着社会经济稳定发展和人民生活安定。随着城市规模的不断扩大和人口的不断增多,人们对供水安全性、可靠性和经济性都提出了更高的要求。供水
随着经济全球化和信息技术的飞速发展,面向服务的思维方式解决了企业信息系统对于快速响应需求与环境变化、提高系统可重用性、信息资源共享和系统间互操作水平的要求的一系列
模块规划是提高软件产品族生产效率和降低软件成本的关键技术,合理规划软件产品族模块是技术研究的重点。本文在分析软件产品族和模块规划发展现状的基础上,基于需求向量运用