论文部分内容阅读
【目的】建立未登录词识别模型,提升发现自然科学领域文本中未登录词的能力,同时降低人工干预成本。【方法】在假设的基础上,构建条件随机场(CRFs)与领域本体元素集相结合的未登录词识别模型。以生物多样性文本为样本,通过比较不同模型性能的差异,检验假设,验证模型的合理性。【结果】实验结果表明,CRFs模型选择单纯的字、字词混合序列、字词混合序列及默认词性、字词混合序列及含自定义语义功能标记的词性为特征时,未登录词识别能力依次提升。该结果证明研究假设为真,本文建立的模型科学、合理。【局限】模型标注未登录词的准确性