论文部分内容阅读
构造虚拟样本能够为机器学习中的训练集融入先验知识,从而改善标注瓶颈问题。提出了一种本体驱动的文本虚拟样本构造方法。在确保类别不变性的前提下,该方法依据领域相关本体所明晰表达的领域知识,基于本体树的点、边、子树,从同义、父子、语义同构的多个词义关系角度实现了文本虚拟样本的构造。初步实验表明,该方法与原分类及类似方法相比具有更好的分类精度和推广能力。