【摘 要】
:
语音识别不仅在人机交互、人工智能(AI)、自然语言处理(NLP)等方面扮演着重要的角色,还是当下的研究热点。说话人的三维特征识别,就是通过说话人的语音信号分析出表征说话人性别、年龄和情感的信息,并对说话人的性别、年龄和情感进行识别,这对刑事案件侦查、智能医院、智慧法院等具有重要的现实意义,如:识别出驾驶员的情绪状态可以提前进行提醒,减少交通事故的发生,在心理咨询中准确识别来访者的情绪有利于咨询过程
论文部分内容阅读
语音识别不仅在人机交互、人工智能(AI)、自然语言处理(NLP)等方面扮演着重要的角色,还是当下的研究热点。说话人的三维特征识别,就是通过说话人的语音信号分析出表征说话人性别、年龄和情感的信息,并对说话人的性别、年龄和情感进行识别,这对刑事案件侦查、智能医院、智慧法院等具有重要的现实意义,如:识别出驾驶员的情绪状态可以提前进行提醒,减少交通事故的发生,在心理咨询中准确识别来访者的情绪有利于咨询过程的顺利完成等。针对传统分类器Softmax、支持向量机(SVM)和极端梯度提升(XGBoost)对说话人的性别、年龄、情感等单个特征进行分类时分类效果较好,对二维(性别和年龄)以上多维特征进行分类时分类效果较差,采用多模态融合方法融合两个单模态深度学习模型Bi LSTM和CNN作为深度特征提取模型(即Bi LSTM_CNN),对说话者语音信号的特征数据进行深度学习并提取深层次的表征性别、年龄和情感的新特征数据,以提高对三维特征的识别能力;针对在说话人识别中时域特征、频域特征与文本特征之间不能相互表征,采用多模态特征融合方法对单模态的时域特征、频域特征、文本特征进行融合以获取更能表征说话人语音信息的特征数据;针对深度神经网络对少量语音样本进行深度学习时学习能力低,本文提出将深度特征提取模型(Bi LSTM_CNN)深度学习出的深度特征知识迁移到Softmax、SVM和XGBoost上进行目标任务学习。实验证明,本文提出的模型Bi LSTM_CNN在目标任务学习SVM上对三维性别、年龄和情感的识别具有较好的分类效果。
其他文献
随着船舶信息系统需求日益增加、建设规模不断扩大,信息系统之间往往各自为营,各种应用程序中的数据难以交换和共享,数据孤岛现象日趋明显。为解决这一矛盾,本文提出一种船舶
复合材料是一种通过人工手段将一些不同性质的材料来进行组合和优化的一种新型加工材料,复合材料在生产过程中可能会出现孔洞缺陷,因此对存在这种缺陷的复合材料元件进行自动化的检测任务是非常有必要的。本文通过CT计算机断层扫描的方法来对复合材料成型件进行扫描和拍摄,并且结合深度学习的技术对于存在缺陷的区域进行检测识别。为了满足对于复合材料缺陷检测稳定性、便捷性、准确性以及经济性的要求,本文通过对几种主流深度
随着陆上油田采油技术的升级迭代,现阶段采用的三元复合驱驱替剂由大量碱、表面活性剂、聚合物组成,对地层原油的驱油效果明显。然而,原油分离过程产生的采出水被严重乳化,而且还包含大量残留化学物质,这种采出水在回注过程中会造成注水井套管腐蚀、地层岩隙堵塞等危害。不但影响后续开采,还容易造成环境污染。因此,在采出水回注地下前,必须对其进一步破乳脱水,从而尽量减小其对设备和土壤的腐蚀。太阳能是一种洁净、可靠的
高技术产业属于资本、技术以及人才密集型的产业,高技术在我国的经济建设中占据的位置越来越重要,从全国范围来看,在“十三五”规划中,各地纷纷把发展高技术产业作为重要的战略方针。高技术产业的发展对我国宏观经济的发展和产业结构的升级优化均起着不可替代的作用。促进高技术产业进一步地高效健康发展,有利于我国创新型国家的建设,也能进一步带动新常态下我国经济的健康发展。本文所研究的高技术产业集聚效率地区差异以及影
近年来,全球气候变暖的加剧与雾霾、沙尘等恶劣气候的频发,使得碳排放的有效控制逐渐成为各国政府与专家学者关注的焦点。碳税、碳限额、碳交易与碳标签等一系列措施的推广实
当前,我国农业面临国际市场对农产品无污染、高品质、高标准的要求,农业需求结构、市场竞争环境及运行环境都发生了根本性的变化。在2017年9月30日,中共中央办公厅、国务院办公厅印发了《关于创新体制机制推进农业绿色发展的意见》,认为推进农业绿色发展是守住绿水青山、建设美丽中国的时代担当,对保障国家食物安全、资源安全和生态安全,维系当代人福祉和保障子孙后代永续发展具有重大意义。习近平总书记曾多次强调,绿
在我国得到广泛应用的是以兼并和收购为主的扩张型资产重组模式,随着多元化企业的不断发展,这种资产重组模式带来的资源分配不均以及新兴业务发展受到阻碍等负面效果凸显,分拆上市作为缓解这种负面影响的有效途径,通过将企业的其他业务分离进入资本市场为企业带来价值创造,而受到市场的追捧。近些年,分拆上市虽然在国内得到了一定程度的发展,但同欧美等发达国家相比仍存在较大的差异,解决扩张型资产重组带来的压力是刻不容缓
在计算机语言学中,词义消歧是自然语言处理中一个重要问题,词义消歧即根据上下文确定对象语义的过程,在词义、句义、篇章中都会出现这种词语在上下文的语义环境中有不同的含义的现象。机器翻译、语音识别、文本分类和自动摘要等各种自然语言处理系统都涵盖了消除歧义这项工作,为了使这些系统更高效,提高消歧的准确率显得尤为重要。论文主要研究内容如下:(1)针对不同词典中词汇语义不唯一、语义编码不完善等问题将影响深度学
随着化工行业的持续发展,硝基类化合物对水资源的污染日益严重。其中,对硝基苯酚是废水中常见的有毒污染物之一,可在水中生物体内长期富集,对生态系统和人类健康产生严重的危害。采用催化还原法,将对硝基苯酚还原成对氨基苯酚,既降低了毒性,又得到了重要的化工和医药中间体。此方法具有反应条件温和及操作简单等优点,而受到广泛关注。针对贵金属催化剂资源稀缺、价格昂贵的成本问题,本文分别将CuO负载到碳球和ZIF-6
随着信息时代的发展,人类需要处理信息的量级激增且应用场景复杂化,传统采样定理的应用遇到瓶颈。压缩感知能以较低采样率对具有稀疏特征的信号完成采样和压缩,实现了直接将原始高维信号向低维观测信号的投影,再由重构算法精确恢复出原始信号,极大地减少了采样和存储的压力。重构算法是压缩感知理论在实际应用中的关键,如何提升重构算法性能(重构效果、重构速度、抗干扰能力等)一直是研究的热点。本文旨在从压缩感知中的贪婪