论文部分内容阅读
认知科学的研究表明,视觉、听觉、触觉等感知信息在人类语言习得的过程中起到了重要的辅助作用,其中以视觉信息的作用尤为突出。为了使计算机在处理语言信息时可以利用相关的视觉信息,便出现了基于感知信息的Grounded词汇语义习得研究。ViMac (Visual Information based Meaning Acquisition of Chinese Words)系统是一个基于视觉信息的自然语言描述生成系统,系统习得基于视觉信息的词汇语义,可以为简单几何图形生成自然语言描述。但是该系统的性能受制于初始训练语料的规模,若希望提高系统性能,需要继续增加训练语料。而大规模语料标注费时费力,本文在系统训练过程中引入主动学习技术,通过从无标语料中筛选最有价值样本进行标注,从而在不影响模型性能提升的前提下,最大程度减少样本标注的规模。本文对基于不确定度的主动学习框架提出两点改进:第一,针对训练样本中各类别样本分布严重不均衡的情况,利用后验概率加权熵来改善样本分布不均衡的状态;第二,针对需要一次性选择多个样本时,利用聚类、加权等方法综合考虑样本的不确定度、影响度和冗余度。进而将主动学习机制引入ViMac系统中指导系统逐步添加对模型性能提升有积极影响的少量新样本,最后搭建了具有在线主动学习能力的系统ViMac-Online。