基于实体关系的中文短文本组织名识别研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:zzuli666
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着通信网络的发展,手机短信、网络聊天以及新兴的信息形式微博等短文本发生了爆炸式的增长,使得它们在网络信息流中占有越来越重要的地位。为了应对如此海量的短文本信息处理任务,开发自动化的处理工具就显得尤为必要。而在短文本处理中,命名实体识别又是关键的一环,具有重要的研究意义。   组织名作为一种复杂的命名实体类型,它具有长度不稳定、结构无序的特点,还常常与人名地名出现组合嵌套的情况,所以它的识别效果很差。短文本作为一种长度短、包含信息量少的文本类型,其中的组织名常常简写略写,使得短文本中组织名的识别更加困难。为了解决这个问题,我们考虑加入额外信息来辅助组织名的识别,而文本中所包含的实体与实体之间的关系正是一种可以利用的资源。   在这个思路下,我们分两步来实现这种方法:第一步,在利用隐马尔科夫模型进行初步命名实体识别的同时,使用朴素贝叶斯分类器作为关系分类器对文本进行关系分类(定义三类关系:人名与组织名之间的雇佣关系、地名与组织名之间的所属关系和其他关系);第二步,再利用规则库找到候选的组织名,如果文本中属于前两种实体关系且文本中同时存在候选组织名和相应的其他命名实体,则判定该候选组织名为确定的组织名。对于被识别为其他关系且同时存在候选组织名的文本,我们将该候选组织名作为查询词放入搜索引擎构造新的人名或地名与组织名同时存在的文本集再使用以上的方法依据概率来确定候选组织名的类型。实验结果表明,这种方法能够有效的提升短文本中组织名的识别效果。   文本中所包含的实体关系种类多样,且表现形式不一,仅仅依据需求粗糙的定义往往会引入噪音,最终影响识别效果。为了避免粗糙定义关系类型,我们希望能够找到一种方法既能够避免具体定义关系,又能够利用关系类型来辅助组织名的识别的方法。文本中实体所处的上下文环境作为实体关系的载体可以很好的体现实体关系,而具有相同关系的实体对的上下文是相似的,这样我们就可以通过上下文相似度的比较来确定文本中的实体对是否属于同一类型。我们利用维基百科这样有序和开放的数据库构建确定的实体对库作为上下文相似度比较的对象,如果相似度大于一定阈值就可确定文本所包含的实体对的类型进而识别候选组织名。对于候选组织名独立存在的情况我们通过搜索引擎来构建新的存在候选实体对的文本集,再用上下文相似度比较的方法进行识别。最终实验结果表明这种方法与定义关系分类的方法基本持平,取得了较好的效果。
其他文献
H.264是MPEG-4第十部分,也是新一代视频编码标准,其编解码流程主要包括5个部分:帧间预测、帧内预测、变换和反变换、量化和反量化、环路滤波和熵编码。帧内模式选择是其中一个重
近年来。随着无线移动通信技术的快速发展与普及,有着固定基站的无线移动通信网络已经被广为应用,另一种能够快速自动组网并进行相互通信的无基站移动无线自组织网络(Mobile
对数字图像的非均匀等比例缩放是通过调整源图像分辨率以适应不同长宽比屏幕的过程,这具有非常重要的理论和应用价值。它的核心问题在于如何使得缩放后的图像,一方面既能够突显
目前,我国在水利、电力、天然气等资源监测等领域已经开始应用了自动化数据采集和传输设备,这些设备一般都是基于GPRS无线网络来进行采集数据传输。但是,由于GPRS网络本身的
神经网络集成研究中个体网络生成方法应用较广的是Boosting类算法和Bagging类算法。Boosting类算法由于其权值的调整倾向于“困难”样本,所以在迭代过程中容易使某些“困难”
目前在很多网络领域中应用的对等网技术是近些年发展起来的一种网络技术,且快速成为业界研究与关注的焦点和热点。可是在对等网的发展及壮大过程中,产生了一系列需要研究和解
由于材料科学以及其自身的特点,使其存储系统在计算机系统中逐渐成为了瓶颈,操作系统中包括文件系统,驱动等层次模块不得不为其进行优化(如磁盘模型)。虽然近几年来,材料科学
我国大多数陆上油田已经处于开采中后期阶段。在中后期或低产油井开采中,油井产液量波动范围大,常用的抽油机系统工况不能随着油井产液量的变化而改变,导致频繁出现“空抽”
随着信息技术和网络技术的高速发展,企业的生存和发展对数据的依赖越来越大,企业越来越重视对数据的保护,很多企业不惜花巨资购买数据备份系统。随着备份产品的不断升级以及
近些年,对等模式(Peer-to-Peer mode,简称P2P)技术的广泛应用造成骨干网中P2P流量逐年递增,占用了超过半数的互联网带宽,基本上统治了整个互联网。由于互联网资源是有限的,P2P流量