基于Wikipedia的中文命名实体识别研究

来源 :中山大学 | 被引量 : 0次 | 上传用户:panmandy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在中文自然语言处理中,命名实体识别(NER)是中文自动分词的一个重要步骤:同时,由于命名实体的识别课题必须解决词的边界界定、上下文歧义的消除、未登录词的识别、实体本身的多种特征定义等问题,这让它成为了一个不可回避的研究难点。在国内外的众多研究中,使用语料数据和概率机器学习模型的集合来解决命名实体识别问题,确定了比其他方法更好的效果。 Wikipedia是一个自由、免费、内容开放的多语言百科全书协作计划。除了庞大数据量,Wikipedia本身特殊的组织结构具有更大的研究价值。Indri是一个优秀的基于语言模型的开源实验搜索引擎,具有优秀的检索性能和多语言适应能力。本文分析了Wikipedia的条目、分类、重定向、链接等结构特点,并使用Indri 搜索引擎建立数据索引,作为命名实体识别系统的词典索引及训练语料来源,通过检索的方式为识别模型提供数据信息。 在解决序列标注问题方面,条件随机场(CRFs)是一个基于无向图的机器学习模型,它的训练精度高于HMMs、MEMMs等模型,能得到全局最优结果,并避免了标识偏向问题。 本文提出了一种基于Wikipedia数据库得到的数据索引,使用CRFs作为识别模型的中文命名实体识别方法,即SYSUNER。我们使用了从Wikipedia数据库抽取出的训练语料进行序列标注训练,并提出了最大匹配粗分词算法进行粗分词,然后使用CRFs模型进行命名实体标注。在SYSUNER中,我们定义了人名(PN)、地名(LN)、组织机构名(ON)、名词缩写(AN)等4中命名实体,并定义了多种相关的文法特征和CRFs模型的特征模板。为了提高精度,我们还引入了N最佳标注选取算法在多种标注结果中选取最优标注序列,引入动态更新词典机制把新词加入系统词典。开放性测试和对比测试的结果显示,SYSUNER的平均召回率和准确率分别都达到了83.20%和85.50%,处于领域的先进水平。而我们引入的多种优化机制也确实提高了系统的性能。同时,我们证实了,把中文Wikipedia数据库用于中文命名实体识别研究是行之有效的。
其他文献
所谓视频驱动就是对视频中的人脸进行跟踪,利用人脸的表情信息驱动卡通人脸模型,使其产生一致的动画效果。视频驱动的人脸动画一直是计算机图形学和计算机视觉研究领域中的难
随着电子商务技术的高速发展,特别是近几年以XML为基础的ebXML ( Electronic Business XML)技术逐渐成熟并开始应用,XML已经逐渐成为数据交换的标准。XML由于具有简单性、易
智能视频监控涉及到数字图像处理、机器学习、模式识别、人工智能和数据挖掘等诸多研究领域,其中智能化部分的运动目标的行为分析与理解属于高层视觉处理,该部分是计算机视觉领
随着入侵检测等高维数据机器学习问题的不断涌现,已有的特征选择算法和机器学习算法面临着严峻的挑战,迫切需要准确性和运行效率等综合性能较好的特征选择算法以及机器学习算
无线传感器网络(Wireless Sensor Network,WSN)是由大量低成本的受资源约束的传感器节点所构成的网络,这些节点间相互协作,从而实现对网络覆盖区域的监控。各个节点所感知到
文件系统是Linux操作系统的重要组成部分。传统文件系统技术成熟、性能稳定,但其耗时的崩溃恢复机制使现代操作系统面临着极大地安全隐患。日志文件系统的出现有效地解决了这
在某些情况下,卫星星座需要对全球地面目标进行访问,但对连续性覆盖要求不高,只要满足一定的访问间隔时间限制,访问时相比较均匀即可。这时就不需要部署大型星座,用数量较少
车间作业调度问题(Job-Shop Scheduling Problem,JSSP)是最一般的,最复杂的和最具难度的生产调度问题。一般的车间作业调度中,设备资源约束是每台加工设备只有一台;因而在实际的加工调度中往往会存在对整个产品加工时间影响较大的瓶颈,对于这种情况,一般的求解方法也往往采用确定各个工序中工件的加工次序。解决瓶颈问题的一种简便方法是增加瓶颈设备,现在无论在学术界还是实际生产中对瓶颈
随着Internet的发展和普及,人类社会对网络的依赖性越来越强,与此同时,网络安全问题也日益突出。在众多网络安全问题中,分布式拒绝服务(DDoS)攻击容易实施、难以防范、难于追踪,是
针对人体组织器官的三维图像分割是医学图像分析和医疗诊断的重要前提,是医学图像三维可视化的重要研究内容。随着医学成像技术和三维可视化技术的飞速发展,计算机辅助诊断成