论文部分内容阅读
互联网技术的发展给人们带来了很多方便,但是由于网上信息的爆增,人们查找信息时候也会有非常多的不便。信息抽取技术就因此而生,可以将无序、无规则的信息结构化存储,对信息加以分析等功能使得信息抽取成为文本处理关键的技术。本文主要研究实体识别、实体关联分析以及基于实体的一些算法,主要创新和研究成果如下:
首先,设计和实现了一种中文命名实体识别的方法,该方法结合规则的构建和统计模型,使用隐马尔可夫模型,利用实体结构规律构建规则,并构建实体词库作为辅助的手段,避免了规则和统计方法的缺点。在实验中证明了方法有效性和可行性。
其次,提出了一种基于命名实体识别的相关反馈算法,该方法采用命名实体作为扩展词,使得检索结果更加符合用户的查询意图。将初始查询结果的相关文档聚类结果作为扩展词的数据源,并采用词频和KL距离模型来抽取命名实体。该方法用于TREC2010相关反馈的评测中,对反馈结果有了很大的改进。
第三,基于弱监督方法设计和实现了实体关系抽取方法。构建关系模式,通过同义词词林编码计算语义相似度,并计算关系模式之间的相似度来确定实体关系类别,该方法可以省去很多语料训练时间,而且计算简单效果较好。并且将关系实体体现在网络构建上面,设计了实体关系网络构建方法,实现了实体关系的可视化。