论文部分内容阅读
本文提出了一种利用百度百科自然标注数据来远距监督网页标题中命名实体挖掘的新方法。首先,通过关联规则挖掘,从百科词条标签数据集中挖掘出层次化的类别结构;然后,以特定类别下百科实体的参考资料网址和相应网页标题作为训练数据,利用一种基于跳跃二元语法模型的贪心策略,学习得到网址和网页标题的混合模板,用于从网页标题中挖掘对应类别的命名实体。实验结果表明,相较于其他使用同类数据源的挖掘方法,我们的方法在挖掘效率、召回量以及部分类别的准确率上都有显著提升。