基于三特征流DBN 模型的听视觉情感识别

来源 :第十一届全国人机语音通讯学术会议 | 被引量 : 0次 | 上传用户:cdronglin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  本文构建了一种三特征流混合动态贝叶斯网络(T_AsyDBN)听视觉情感识别模型,听觉流采用MFCC特征和经过PCA降维的局部韵律特征,视觉流定义了二维面部几何特征和三维面部动作参数特征,并经过PCA降维,形成19维视觉特征。两个听觉特征流在状态层同步,而它们与视觉特征流可以在一定约束条件下异步。在eNERFACE’05听视觉情 感数据库上的情感识别实验表明,通过调整听视觉状态流之间的异步约束,与传统的多流隐马尔可夫模型(MSHMM)以及有状态异步约束的听视觉双流DBN模型(Asy_DBN)相比,T_AsyDBN模型的识别率分别高出18.73%和10.21%。
其他文献
为获得具有通用性的声调处理系统,本文运用计算语言学方法,基于管辖音系学理论提出跨语言声调处理算法。经分析天津话和丹阳话变调算法结果,可得出结论:基于管辖音系学的变调自动化处理模型具有跨方言算法内核 一致性、代码精简性以及可移植性等特点。这些特点均源于该音系学理论特有的声调表征模式以及声调音系过程解释机制。
本研究从音高,时长和音强三个方面,分析了100首五言绝句和七言绝句在朗读中表现出的声学特点。绝句内部 主要包含联间边界,句间边界和句内边界三个不同层级的韵律边界。通过对绝句声学特征的统计分析表明,随着绝句内部韵律层级的提高,边界处音高低音点的重置程度增大,边界前音节时长缩短,而无声段长度变长;两种绝句各句音高低音点和高音点都有各自的下倾语调,并会以联为单位收紧音域。两种绝句各句内音节强度值逐渐减小
研究表明,基于隐马尔可夫模型的语音合成(HMM-based speech synthesis)中结合整体方差(Global variance, GV)模型的参数生成方法对于克服生成语音参数中的过平滑现象有较好的作用。然而该GV模型中并没有考虑到各阶语音参数之间的相关性。对于线谱对(LSP)这样的参数,相邻阶LSP参数之间的差分对于频谱包络有很强的影响。鉴  本文提出了建立在相邻阶LSP差分上的GV
本文提出了一种基于声学模型Viterbi解码的中文合成音库韵律短语边界自动标注方法,以降低大语料库单元 拼接合成系统的构建成本。该方法分为模型训练和韵律标注两阶段:模型训练阶段得到频谱、基频和音素时长的上下文相关隐Markov模型(hidden Markov model, HMM);标注阶段借助训练得到的模型采用Viterbi解码完成韵律短语自动标注。实验结果表明:该方法进行韵律短语边界标注时的F
本文选取紧邻北京的河北高碑店朝阳中学的中小学生为调查对象,经问卷调查数据分析,初步总结得出高碑店市义务教育阶段中小学生的语音生态因素,主要包括高碑店方言常用字词表、普通话语音环境和普通话语音与方音的相关性。通过对高碑店市中小学生语音生态调查,不仅在义务教育阶段的中小学生的语音习得研究上具有一定的学术意义,而且定针对方言区义务教育阶段的中小学生的推普策略和普通话教学法也具有一定的参考意义。
本文针对传统数字版权管理系统中存在的由于密钥容易丢失和遗忘而造成用户使用不便、非法用户对密钥的窃取和伪造、以及合法用户主动泄漏密钥造成信息提供商在知识版权方面权益的丧失等问题,构建了一种针对对等网络(Peer-to-Peer,P2P)数字版权管理的声纹辅助认证系统。该系统采用随机数字文本提示的方式,进行说话人确认以及基于语音内容的信息确认,并采用SVM模型进行融合判决;针对说话人语音内容不匹配时存
基于加权有限状态转换器的语音解码技术是当前语音识别领域的研究热点之一。利用加权有限状态转换器的相 关理论和算法,可以构建语音静态解码网络,空转移去除 (ε-Removal)是其中重要的一环。传统的ε-Removal 算法并不能保证网络规模最小,这会增加后续语音解码的空间和时间复杂度。本文对传统算法进行了分析,在此基础上提出了“拓扑相关的ε-Removal算法”,根据网络局部拓扑结构选择ε-Remo
作文是汉语考试的必考项目,寻找简单有效的作文自动评分算法无疑可以很大地提高作文阅卷的效率。本文在词汇等级方面研究作文自动评分技术,包括采用现成的分级词汇表方法,以及两种本文提出的词汇等级训练算法,实验结果表明,基于现成的分级词汇表法的作文打分结果与人工打分相关性较差,本文提出的两种词汇等级训练算法打分结果的相关性指标分别接近人的水平和超过人的水平。这表明,作文的用词随着作文题目的变化而变化,固定的
互联网上音频数据量的激增,使音频内容拷贝检测 渐成为热点。本文选取频带能量差异做特征设计了一个基于指纹索引的快速音频拷贝检测系统。系统召回率最差的情况有88.72%,准确率达到100%,对平均待检音频80秒的数据,系统平均检索速率为31秒。实验表明,本系统在几种常用音频变换下依然能取得较好的检出效果,本系统的索引机制与匹配算法也使时间开销大大降低。
本文在主观听感实验的基础上,对普通话转化为西安方言的双字转调规则进行了评价。分析实验数据,可以证 明所研究的双字转调规则基本能够实现普通话到西安方言 的转调,但是个别双字词在转调后与西安方言不一致,需要进一步研究与改正。本文对探索普通话与西安方言的转化具有一定意义。