基于条件随机场的中文命名实体识别的研究与应用

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:hai_john
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在文本中,命名实体是信息的主要载体,用来表达文本的主要内容。而中文命名实体识别是信息抽取、摘要提取、句法分析、开放域问答和机器翻译等应用领域的重要基础,越来越受到人们的重视和关注。但是,由于受中文自身特点的限制,中文命名实体识别的效果一直不是很理想。为提高中文命名实体识别的效果和促进中文信息处理领域其他技术和应用的发展,研究中文命名实体识别技术具有极其重要的意义。中文命名实体识别主要有基于规则和基于统计的两类方法。本文中文命名实体识别的方法是基于统计的,主要研究了基于条件随机场模型的中文命名实体识别技术。在理论上,对比讨论了几种统计模型的优缺点,包括隐马尔可夫、最大熵模型、最大熵马尔可夫模型以及条件随机场模型。其中,隐马尔可夫模型对独立性要求较高,最大熵模型缺少马尔可夫特性,最大熵马尔可夫模型存在标记偏置问题,而条件随机场模型能很好的解决上述模型所引起的问题。另外,本文还对条件随机场模型进行了深入的研究,尤其是特征提取和模型参数求解方面。对于基于条件随机场的中文命名实体识别,特征模板对识别的效果具有非常重要的影响。本文在前人工作的基础上,对特征进行细化和整合,并通过实验总结出一个能很好表征各类命名实体的特征模板,该特征模板包含基本特征、前后缀特征、字典特征以及复合特征。同时,首次尝试在训练和测试过程中,应用不同的字典进行特征提取,使得识别效果有较大的提高。最终识别结果的F值达到91.27%,甚至高于SIGHAN bakeoff 2006评测第一的结果。在本文的最后,利用对基于条件随机场的中文命名实体识别技术研究的结果,实现了中文命名实体在线识别和网络热点人物排名系统。网络热点人物排名系统对经过净化处理的网页文本进行识别,统计出每个人名在当天或当月出现的次数,并给出排序后出现次数最多的热点人物。
其他文献
现代社会中,计算机软件发挥越来越重要的作用。计算机软件随处可见,大到神舟七号航天器,小到个人电脑,都有软件的身影。然而,世上没有完美的软件,几乎所有的软件都有缺陷,所
磁暴导致的地磁感应电流(Geomagnetically Induced Currents,简称GIC)对电网的影响需要研究,实际测量是掌握电网GIC水平的直接手段,本文提出在已研制的GIC监测装置基础上,开发基于GRPS的电网GIC在线监测系统。在电网GIC在线监测系统的设计中,利用GPRS技术实现了GIC数据的远程传输,并将各自独立的监测站点的数据组织成数据网络;应用.NET技术完成了监测系统后
随着新一代存储设备固态盘的发展,如何发挥新存储设施的特性成为近年来的一个研究热点。作为数据库系统的核心查询算子,针对连接操作的性能优化以及功率控制成为当今数据中心
Petri网作为形式化描述与分析工具,已经成功应用于计算机科学与技术,自动化科学技术等多个领域,语义Web的出现,更为Petri网技术提供了广阔的应用前景和机遇。 Petri网的自动
在网络日益普及的今天,人们在学习、生活和工作中的各个方面越来越多的用到网络,人们在享受网络的快捷便利的同时,网络安全也成为人们关心的头等大事,威胁这些应用的入侵行为
随着网络的发展和普及,P2P已成为了目前网络的“杀手应用”之一,而BitTorrent,简称BT,则是P2P中的佼佼者。据统计,当前我国在Internet主干网络的通信流量中,有60%以上是属于P
三维全景图技术是虚拟现实VR(Virtual Reality)领域重要研究内容之一,随着互联网技术的飞速发展,广泛应用于虚拟旅游、数字展馆、全景导航、城市街景等领域。相对于传统二维
近年来,随着计算机实时绘制领域迅猛发展,人们对真实感图形的需求也与日俱增。阴影效果在真实感图像的生成和物体位置的判断方面扮演了重要的角色,它提供了光源对物体的照射
人工神经网络由于其大规模并行处理、容错性、自组织和自适应能力和联想功能强等特点,成为解决很多问题的有力工具,并且已经广泛应用在函数逼近、系统识别和控制、信号和图像处
移动多媒体应用使人们越来越关注如何在移动自组织网络(MANETs)中提供服务质量保证(QOS)的通信。在基于时分多址的MANETs中,需要通过分配时隙来满足流的带宽请求和支持冲突避