基于命名实体的信息抽取技术研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:lhl23
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网技术的发展给人们带来了很多方便,但是由于网上信息的爆增,人们查找信息时候也会有非常多的不便。信息抽取技术就因此而生,可以将无序、无规则的信息结构化存储,对信息加以分析等功能使得信息抽取成为文本处理关键的技术。本文主要研究实体识别、实体关联分析以及基于实体的一些算法,主要创新和研究成果如下:   首先,设计和实现了一种中文命名实体识别的方法,该方法结合规则的构建和统计模型,使用隐马尔可夫模型,利用实体结构规律构建规则,并构建实体词库作为辅助的手段,避免了规则和统计方法的缺点。在实验中证明了方法有效性和可行性。   其次,提出了一种基于命名实体识别的相关反馈算法,该方法采用命名实体作为扩展词,使得检索结果更加符合用户的查询意图。将初始查询结果的相关文档聚类结果作为扩展词的数据源,并采用词频和KL距离模型来抽取命名实体。该方法用于TREC2010相关反馈的评测中,对反馈结果有了很大的改进。   第三,基于弱监督方法设计和实现了实体关系抽取方法。构建关系模式,通过同义词词林编码计算语义相似度,并计算关系模式之间的相似度来确定实体关系类别,该方法可以省去很多语料训练时间,而且计算简单效果较好。并且将关系实体体现在网络构建上面,设计了实体关系网络构建方法,实现了实体关系的可视化。
其他文献
近年来,由于社交网络服务的兴起,形成了各类在线社会网络,为社会网络研究开辟了新的研究领域。而在线社交网络上的用户行为,也引起了人类行为动力学研究的关注,为人类行为动力学研
无线传感器网络由于节点的能量有限,如何高效使用能量是现今研究的核心问题。分簇路由协议通过网络的层次化管理,有效控制了网络的能量消耗,延长了网络寿命。而基于移动Sink
[目的]本研究以16S rRNA为分子标记,采用高通量测序技术分析探讨3种水平体细胞鲜奶样品中细菌种类、菌群多样性和菌群结构.[方法]选取江苏某牧场45头奶牛鲜奶样品,分为健康、
学位
随着Internet的快速增长和无线接入技术的惊人发展,人们对无线视频业务的需求也越来越大,视频流在网络传输中的一些关键技术也得到了很大的发展。网络视频是一种基于数字流媒体
盲源分离(BSS)技术是现代信号处理领域中一个新的研究方向。目前已广泛应用于语音信号处理、图像处理、多用户通信、阵列信号处理及医学信号处理等许多领域。解决盲源分离的
无线传感器网络是由大量传感器节点在监测环境内形成的一个短距离无线通信网络,广泛应用于军事、环境、交通、医疗、航天等领域。位置信息对于传感器网络的监测活动至关重要,
近些年,多天线技术和中继技术的提出,大大推动了无线通信技术的发展。本文重点考虑了多天线技术与双向中继技术相结合的系统场景,研究联合预编码与检测算法的设计问题。首先回顾
无线传感器网络技术由美国军方于20世纪70年代提出,在近十年得到了广泛的研究和应用。然而,由于无线电频谱资源的匮乏,越来越束缚了基于固定频谱的传统无线传感器网络的应用
随着计算机技术的高速发展、网络的普及,虚拟现实技术的理论研究与应用成为信息技术领域中研究的热点之一,这项技术也将成为发展最好的计算机技术。虚拟现实技术在不同领域的