中文短文本命名实体识别方法研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:qq2009liuwei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着BBS,聊天室,即时通讯软件,手机短信等这些短文本在Internet信息流中日益突出的地位,人们迫切需要一些自动化工具帮助进行短文本海量信息处理。短文本命名实体识别是短文本处理中必不可少的关键技术,具有重要的研究意义。迄今为止,据我们所知,尚无人进行该方面的研究,所以,它也是一项急需解决的紧迫任务。   短文本命名实体识别主要存在下述两个问题:   首先,现有的命名实体识别方法不适合短文本命名实体识别。如何依据已有的命名实体识别方法,结合短文本自身的特性,探寻出适用于短文本的命名实体识别方法成为急需解决的重要问题。   其次,短文本组织名的识别效率低下问题。如何提高短文本组织名识别成为短文本命名实体识别的一个重要问题。   针对第一个问题,提出了一种面向短文本的快速有效的命名实体识别方法。该方法主要分成三步:第一步,针对短文本表达不规范特性对命名实体识别的干扰,采取去干扰字符,化繁为简等规范化操作。第二步,针对短文本语意不完整特性,提出用HMM(隐马尔可夫模型)以词性做观察值,通过Viterbi算法进行初步命名实体识别。第三步,据初步识别结果,构建拼音同指关系库来识别潜在实体。实验表明,该方法能较好的进行短文本命名实体识别。   针对第二个问题,提出了一种利用实体关系识别短文本组织名的方法。该方法主要分成三步:第一步,改进朴素贝叶斯分类器为关系分类器,对文本标注关系类别标签。第二步,标签不为0:根据实体关系类别和文本中存在的人名,地名情况,判定文本中是否存在组织名,若存在则根据组织名后缀特征库定位出。第三步,标签为0:提取0类文本中组织名待选词,放入百度重构语料,再次利用朴素贝叶斯关系分类器标注重构语料中实体关系,最后通过重构语料中组织名待选词被判定为组织名的概率判断当前待选词是否为组织名。经过实验表明,该方法能有效提高短文本组织名实体的识别。
其他文献
当前E-Science等网格应用日益普及,致使以IP over Optical为核心的光网格计算环境相关技术得到了广泛关注,目前国际上许多研究组织或机构,重点资助了一批专项研究项目(如:DRA
学位
随着嵌入式应用的日益普及,业界对嵌入式操作系统用户界面美观性等诸多方面提出了更高的要求,而桌面环境为操作系统提供一个更加完善的界面以及大量各类整合工具和应用程序,由于
移动Ad Hoc网络(Mobile Ad Hoc Network,MANET)是由一组带有无线通信收发装置的移动终端节点组成的一个多跳、临时和无中心的网络。路由协议一直是MANET研究比较活跃的领域,
学位
近年来随着多媒体数据成指数级的增长,多媒体分类和检索变得越来越迫切。当人们在浏览和理解视/音频内容时,作为多媒体数据中标志性部分的音频,为人们的感知提供了重要线索。
学位
P2P技术和流媒体技术的结合,为网络上的音视频数据的传输问题开辟了新的发展方向,这种方式采用P2P分布式的特性对流媒体数据进行分发。基于随机网络拓扑的P2P流媒体内容分发
随着计算机模拟技术的发展,对计算机运算速度、处理精度的要求越来越高。为了在有限的计算机资源条件下求解大规模计算机模拟任务,因此基于高性能计算机技术的并行计算技术得
学位
随着多媒体技术的发展和互联网的普及,数字多媒体作品的制作、处理和网上传播越来越便捷,多媒体数字化给人们提供便利的同时,也给知识产权的保护带来挑战,数字媒体作品尤其是
网页浏览和搜索引擎的关键字检索是人们从Internet上获取信息的传统方法,其局限性主要表现在:网页浏览方式很难在Internet上定何特定的知识;搜索引擎则很容易将所需知识淹没在大
随着计算机计算能力的迅速提高,计算机的普及以及Internet的迅速发展,个人信息的安全性变得越来越脆弱,传统的数据加密技术可以部分地克服信息的随意散布,但随着破译技术的迅
随着互联网技术的快速发展,计算机辅助设计系统呈现网络化的趋势。基于互联网的计算机辅助设计系统能够充分利用异地资源,实现计算机支持的协同工作,从而有效地缩短产品的开发周