论文部分内容阅读
谎言检测的重要性不言而喻,测谎在辅助公安侦查、防止电信诈骗等方面有着重要的意义。以往测谎的方法往往使用专业且昂贵的仪器,并测量受试者的生理信号变化作为检测依据,例如脉搏、血压、脑电波等。相比之下,利用语音进行测谎则非常方便快捷,其非接触式、非强迫的特点不易引起受试者的排斥情绪和恐惧心理,因此更具有隐蔽性和客观性。然而目前语音测谎尚处于起步阶段,还有许多问题需要解决。深度神经网络近年来在图像识别,语音处理等领域表现出卓越的性能,这给语音测谎提供了新的研究思路,因此,本文将深度神经网络应用于语音测谎,针对目前语音测谎存在的几个问题进行了研究,主要工作从以下三个方面展开:(1)构建了汉语谎言语料库。现有的谎言语料库很少,尤其是汉语谎言语料库匮乏。为了对谎言语料尤其是汉语谎言语料进行补充,本文参考了既有的谎言语音获取经验,将“狼人游戏”和“杀手游戏”做为语料的背景来源,从互联网上选取了相关的高质量视频,之后使用专业的音频处理软件从中提取、剪切出时长为数秒的短语音,构建了一个纯汉语的谎言语料库,并提取出这些语料的语音特征,用分类器加以识别,对语音测谎进行了初步的探索。(2)提出了一种改进的半监督去噪自编码网络(SS-DAE)并应用于语音测谎。目前的语音测谎研究依赖于大量的带标签的数据,然而由于谎言语音的特殊性,标注数据需要非常大的成本,因此,本文首次将半监督学习应用于语音测谎,旨在利用少量的有标签数据进行语音测谎。在现有的半监督自编码网络(SS-AE)的基础上,选择了性能更优的激活函数,使用了dropout以防止过拟合,并简化了网络结构。在训练时综合利用有标签数据和无标签数据,同时进行有监督学习和无监督学习,避免了以先后顺序进行两种学习时引起的冲突。在CSC(Columbia-SRI-Colorado)语料库上,使用1000个带标签数据达到了62.78%的准确率,在自建语料库上使用200个带标签数据达到了63.89%的准确率。结果表明,所提模型在少量带标签数据的情况下能达到最优的性能。(3)利用融合特征进行语音测谎。针对使用单一类型特征会遗失语音中的某些信息,不利于谎言检测的问题,本文综合使用了不同类型的特征进行语音测谎。首先设计了一种去噪自编码网络(DAE)和长短时记忆网络(LSTM)的并行双通道结构,然后提取出语音中的人工特征并输入DAE以获得更具鲁棒性的特征,同时,将语音加窗分帧后提取出的Mel谱图输入LSTM进行帧级深度特征的学习,最后将这两种特征通过批归一化及全连接层后实现融合,输入分类器进行识别。在CSC语料库上可以达到65.18%的正确率,在自建语料库上达到了68.04%的正确率。实验结果表明,所提融合特征算法可以达到更好的识别效果。