中文分词算法的研究与应用

来源 :山东科技大学 | 被引量 : 0次 | 上传用户:taiyangkaimen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网飞速发展,中文信息处理在获取有价值信息方面起到不可替代的作用,而中文分词在中文信息处理的过程中重中之重,又在信息检索、智能输入、自动摘要、中外文翻译文等各个领域都有重要应用。中文分词是将汉语中连续的字序列切分成具有实际意义的最小单位的词语。汉语的历史悠久与博大精深决定了它的复杂性,提高分词算法的划分精度和划分速度,具有重要的理论意义和现实意义。  本文首先阐述了中文分词的研究背景、研究意义以及发展现状,以及目前存在的困难,并研究现有分词算法,包括基于词典的机械分词算法、基于统计的分词算法和基于理解的算法。三种基本的分词算法各有利弊,第一种分词算法简单高效,在目前的各种分词系统中都广发应用,第二种分词算法是运用统计学理论训练大规模语料库,算法复杂而且效率较低,第三种分词算法是想通过模拟人的思维达到高精度的智能分词,虽然目前尚不成熟,有很大的发展空间。  本文选择研究全切分算法,全切分算法的切分结果是能够最大限度的保留正确分词结果,全切分形成的分词结果是一个切分词树,切分词树形成有向无环图,对进行全切分后形成的有向无环图求取最短路径进行深入研究,利用N-最短路径算法进行求取最短路径,是贪心算法的应用,由于其进行重复遍历,导致时间复杂度较高,本文在此基础上提出基于频数统计与动态规划相结合的分词算法,即采用动态规划的思想倒叙遍历全切分后形成的有向无环图,通过记忆化搜索的方式,旨在降低时间复杂度,提高分词速度,并通过实验证明了此算法具有一定的可行性,同时,对Trie树的词典结构进行研究。  本文对基于频数与动态规划相结合的算法进行复杂度分析和速度测试,在理论和实践上证明该算法在一定程度上提高了分词的速度。  中文分词算法应用广泛,本文选取搜索引擎Nutch作为一个应用场景,对Nutch进行学习研究,Nutch中预留的中文分词算法是逐字切分,是没有实际意义的中文分词,本文则是将算法应用到Nutch分词器中,使得Nutch具有中文分词的功能,研究比较分词结果。
其他文献
随着信息技术的发展,物联网越来越多的应用到像智能交通、智能家居、智能医疗等的智能应用行业中,以传感设备为基础的各类流式数据的实时接收和处理成为物联网智能应用的关键。
随着网络的日益普及,网上业务尤其多媒体业务日益增多,不断增长的需求会对网络的拓扑结构和负荷能力提出挑战。拥塞控制也因对网络带宽要求的增长及网络应用的集中而显的十分
由于无线传感器网络节点在部署时通常随机播撒,大部分位置不能事先确定,而传感器网络很多应用都需要节点位置信息才能确定数据来源。节点位置信息还可以用来提高路由效率,帮助实
智能规划是人工智能研究领域近年来发展起来的一个热门分支,由于其广泛的实用性,受到研究者的高度重视。尤其是具有不完全信息和不确定信息的规划问题已经成为智能规划研究中
无线传感器网络由大量相互协作的微小节点组成,每个节点具有有限的感知、传输和计算能力。节点以适当的方式组成网络,并将它们的感应数据有机地关联和融合时,整个网络提供的能力
软件测试是软件开发过程中一个既重要又很难实施的环节,同时它也是软件质量保证的关键步骤,是软件工程研究领域的重要内容。回归测试是软件修改后为确认修改的正确性而进行的测
可扩展标记语言(XML)是由W3C设计并推荐的新一代标记语言。XML因其优良的可扩展性、互操作性、可靠性和简便性,已在电子商务领域得到了日益广泛的应用,逐渐代替传统的HTML,促
无线信道有着不同于有线信道的特性,因此需要特别设计专门的无线介质访问控制(MAC)协议以避免无线网络中的信号冲突,并为无线网络用户提供高质量的数据传输服务。无线MAC协议的
万维网是一个包含丰富资源的数据库,如何有效地从其中获取所需信息是网络数据挖掘的一个关键问题。从1990年开始,搜索引擎逐渐发展称为人们在互联网上搜索资源的主要方式。传统
随着互联网的普及和企业办公自动化,工作流技术已得到快速发展。工作流管理用于处理复杂事务,实现流程的自动化,工作流引擎作为核心部件控制并实现业务流程各个环节间的调度。为