论文部分内容阅读
为了更便捷地实现唇声转换,提出了一种由嘴唇视频直接生成语音的方法,并对相关问题进行了研究。首先同步地计算视频文件中的嘴唇运动特征和对应的LPC10话音编码参数,然后借助LSTM人工神经网络进行端到端的训练。训练后的网络模型可以将嘴唇运动特征映射为语音编码参数,再采用语音合成技术将语音编码参数转换成可以播放的语音样值数据。该方法跳过了中间的文字环节,因此称为直接生成,具有可方便地得到训练样本、无须人工标注的优点,同时也可以避免文本重建语音方法中存在的发音歧义。测试结果表明,在词汇量有限的应用情境中,该