论文部分内容阅读
学者的个人主页提供了准确的学者信息,这些信息在专家推荐等方面有着非常重要的应用。传统的学者主页信息抽取方法过度依赖人工定义特征。为了减少对人工的依赖,提出一种基于神经网络的序列标注模型,自动挖掘文本中隐藏的特征。该模型利用BERT(bidirectional encoder representation from transformers)获得词的向量化表示,然后输入到双向长短期记忆网络中进行上下文的编码,最后通过条件随机场标注标签。实验结果表明,在F1值上,该模型对学者主页信息的抽取效果远高于传统