中文分词系统的研究与实现

来源 :北京科技大学 | 被引量 : 0次 | 上传用户:Disama
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文分词是中文信息处理的基础,也是其一直存在的基本问题,有着极其广泛的实际应用。可以说,在各类中文信息处理软件(系统)中,中文分词是不可或缺的环节。自上个世纪末,由于互联网在中国的兴起,更对中文信息处理提出要求,即在语义层面上处理中文,这使得中文分词技术的研究显得更加困难,中文分词技术的发展显得更为重要。   本文调研了国内外中文分词的历史和现状,分析了目前中文分词存在的重点和难点,即新词识别和歧义处理,本文在领域范围内,在中文搜索引擎的大背景下展开研究工作。应用中文分词的相关知识,结合实际设计开发工作,完成本课题的相关任务。首先较为全面地分析了课题背景、中文分词相关知识、本文重点研究的CRF模型、新词识别过程及系统的实现和实验情况。   条件随机场模型是一种无向图模型,具有产生式模型和最大熵模型的优点,既可以利用任意上下文特征,并且对这些特征进行训练,又可以通过折衷不同位置的不同特征值获得全局最优的标记结果,但它本身也具有一定的缺陷,训练复杂,训练占用空间太大且对于长字词的识别能力不高。本文首先针对自己的分词系统对条件随机场模型进行了一定的优化处理,标记方法采用由字构词法,特征方面采用构词法与词性特征联合解码方式等多个方面进行了优化,然后提出了本文的新词识别的方法,采用CRF与PAT-Array相结合进行新词的检测,然后利用应用非常广泛的基于统计的kNN分类器进行分类,从而将新词识别出来。这种方法很好地解决了CRF模型对于长字词检测能力不高的缺陷,提高了整个系统对于新词的召回率,提高了分词系统的性能。
其他文献
传统的基于关键词的信息检索不能理解用户的需要,仅仅对关键词进行简单的匹配,其结果往往包含大量与用户实际需要毫不相干的没有价值的信息,同时却丢失用户实际需要的信息,其检索
制造执行系统(Manufacturing Execution System,MES)是位于上层的计划管理系统与底层的工业控制之间的面向车间层的管理信息系统,在企业信息化中发挥着重要作用。随着企业信息
现代软件企业面临着巨大的开发压力。在软件工程中,科学的软件度量可以在预研,开发和评估阶段提供数据支持。因此,软件度量是软件工程的必要环节。而在软件度量中,软件功能规模度
网格计算是近年来新兴的一种技术,它的目标是资源共享和分布协同工作。网格环境下的数据传输有带宽高、容量大等特点,但是目前这方面的研究并不多。人们对于网络带宽的需求日益
语义角色标注是目前语义分析的一种主要实现方式,它也是近年来自然语言处理领域的一个研究热点,是信息抽取、信息检索、阅读理解、问答系统等多种自然语言处理技术的重要基础
近年来,随着Web2.0技术的不断发展,博客空间已经成为一种社会大众广为接受的舆论交汇场所,一系列简单、独立的网络日志也因此逐渐发展为一种虚拟的社会形式——“博客群”。本文
自从第一款即时通讯软件ICQ诞生以来,即时通讯系统飞速发展,文件传输技术也同步发展。文件传输有很多种,常用的有FTP文件传输、HTTP文件传输、E-MAIL文件传输、共享式文件传输、
煤炭是一个特殊行业也是一个高危行业。煤矿安全管理是煤矿企业管理的一个十分重要的环节,煤矿安全管理的好坏,不但关系到煤矿企业的发展和前途,更加关系到每个矿井工作人员
性能是软件系统最重要的属性之一。如果系统无法达到预期性能,就要长时间进行调优,甚至导致项目最后以失败告终。目前,针对不同硬件体系结构,并行构件应用程序的执行性能可能差异
研究指出制造执行系统(MES)能有效消除信息孤岛,提高企业的生产效率,减少企业的生产成本,从而使企业在竞争激烈的市场占据优势。因而在企业实施信息化过程中,MES的实施至关重要。