SVM和最大熵相结合的中文机构名自动识别

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:a6863156
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
未登录词的识别是汉语自动分词的难点之一,而中文机构名是未登录词的一个重要部分,涉及广泛,种类繁多,形态各异,且绝大多数未收入到词典中。中文机构名的自动识别对提高汉语自动分词和句法分析的精确率都有重要的意义。 本文提出一种支持向量机(Support Vector Machine,SVM)和最大熵相结合的中文机构名自动识别方法。中文机构名识别范围限定在以机构名特征词为结尾的完整机构名。根据机构名的特点,将机构名识别分为两个部分,后界判断和前部标注。对文本中出现在特征词典的词,基于SVM判断是否是机构名特征词(后界判断),从识别出的机构名特征词前词开始向前基于最大熵标注,直到标注到非机构名成分停止标注(前部标注),然后继续在文中重复上述过程。 为了提高后界判断效率,提出驱动式识别方法,对文本中出现的收录在特征词典的词进行后界判断,识别出该词是否是机构名特征词,对识别出的机构名特征词开始前部标注。由此可知,后界判断问题是二值分类问题,而SVM是一种优秀的二值分类器,因此基于SVM的后界判断模型可以有效地解决机构名特征词识别问题。根据机构名特征词的统计分析和语法特征,建立基于SVM的后界判断模型。 机构名前部词组成比较复杂,由于最大熵可以灵活地将许多分散、零碎的知识组合起来,对复杂问题的解决有较好的效果,同时最大熵以较好的效率解决多类分类问题,因此最大熵的前部标注模型有效地解决了比较复杂的中文机构名前部词识别问题。根据机构名前部词的特征和统计分析结果,制定最大熵特征模板,构建特征集并进行参数估计获得基于最大熵的前部标注模型。 实验表明,SVM和最大熵相结合的中文机构名自动识别方法是有效的:系统开式召回率和精确率分别达91.05%,93.59%,F值为92.84%。和当前同类文献相比,本识别系统取得了比较好的识别结果。并且本文所提出的方法具有较强的推广能力,利用本方法还可以对其它未登录词如人名、地名等进行识别。
其他文献
随着Internet的飞速发展,网络迅速成为一种重要的信息传播和交换的手段。如何通过Internet来把分布在世界各地的异构数据库里的有用数据进行整合和交换并加以综合利用,即构建
目标识别是计算机视觉的一个重要研究方向,在军事,自动化领域有着广泛的应用前景。复杂背景下动态目标的识别更是一个难点和热点。目前关于目标的识别方法已有很多,而对于复杂背
工作流技术是计算机支持的业务流程的全部或部分自动化,目的在于通过对业务工作的流程化分解改造,提高企业运作的灵活性和适应性、优化并合理利用资源,使企业能集中精力处理核心
类推是人类最常用的基本推理过程。图像类推思想是一种基于学习的思想,阐述的是计算机学习人类的类推过程,分析并学习源图像对中两幅图片的关系,将此关系应用到目标图像对中。
语音识别是近半个世纪发展起来的新兴学科,它能使计算机“听懂”人的自然语。由识别得到的信息可作为声控信号应用到多种技术领域,在工业、军事、交通、医学、民用等各方面有广
面向对象编程作为主流编程范型,在WEB系统设计实现中得到了很好的应用,但同时也早已暴露出不足,针对面向对象编程思想的不足人们提出了面向方面编程。面向方面编程很好地解决了
在机器人的各种传感器中,视觉传感器可以获得其它传感器所无法比拟的大量环境信息,为机器人的控制决策提供了可靠的信息保障,而其中双目视觉传感器又以其可获得环境中物体的深度
20世纪50年代末第一台机器人诞生以来,机器人被广泛应用到各行各业。基于视觉信息的移动机器人导航是当前移动机器人研究的一个焦点。目标跟踪和视觉避障是移动机器人导航中的
数据挖掘(Data Mining,DM)是从存放在数据库、数据仓库或其他信息库中大量的不完全的有噪声的模糊的随机的数据中提取隐含在其中的人们事先未知、但是潜在有用的信息和知识的
多种特征综合应用的图像检索是当前基于内容图像检索的热点。本文从图像的纹理和形状特征出发,总结了基于纹理特征和形状特征的图像检索的研究现状和发展趋势,分析和概括了图