论文部分内容阅读
在信息过载的背景下,如何从拥有共同主题的多篇文档中挖掘并组织核心概念及其语义连接已成为当前信息抽取任务中的一项重要挑战。为此,提出了一种新颖的基于开放域抽取的多文档概念图构建方法。首先基于预定主题挖掘主题词,通过改进的TF-IDF算法对文档进行排序;然后通过共指消解、篇章权重计算、三元组实例抽取等一系列步骤从多篇文章中抽取出大量具有事实表达能力的三元组实例。为去除开放域方法本身的噪声以及提高信息抽取的准确率,提出一种三元组实例过滤算法。通过该算法可有效提取高置信度且具有良好语义兼容性的显著关系实例集