论文部分内容阅读
句子相似度计算是自动问答系统的重要理论基础和关键实现技术。目前,用于中文自动问答系统的句子相似度计算方法很多,由于缺乏系统的分析,给研究人员带来了较大的不便。依据所利用的特征信息,可以将这些方法分为四类,即基于关键词信息、基于语义信息、基于句法结构信息以及基于多重信息。通过对各类方法实验结果的比较,指出各自的优势和不足。同时指出,基于多重信息的方法是当前的主流方法,实现不同特征信息的最佳权重分配是该类方法今后的研究重点。另外,还提出一个有关相似度概念认识上的看法,即对于中文自动问答系统,实质上依据的是句子