用于话者识别的有效语音实时提取

来源 :第四届和谐人机环境联合学术会议 | 被引量 : 0次 | 上传用户:dongmeizi1988
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电话通讯环境中由于涉及多路并发话音的采集,对其话者识别的实时性要求很高,有效语音的动态提取由于要对静音、线路噪声、突发噪声等进行区分和处理,所以存在着很多的问题,也有着很广泛的应用场景。本文,提出一种渐近寻找三级阈值实时提取话者识别有效语音的方法,对静音、线路噪声、突发噪声进行鉴别与过滤,保存主要的话者语音信息。话者识别实验表明该方法能够很好地应用在电话通讯环境中话者识别的有效语音动态提取中,能有效提高话者识别的准确率和实时性。
其他文献
笔式电子表单是一种基于笔式用户界面技术的电子表单软件。由于现有开发工具操作复杂、笔式用户界面实现困难使得笔式电子表单的开发只能由职业开发人员来完成,但这样很难适应用户需求的不断变化。给与最终用户自主开发笔式电子表单的能力是解决此问题的良好方法。基于表单、业务规则的自然特性,以帮助最终用户开发笔式电子表单为目标,设计与实现了面向笔式电子表单的最终用户开发工具。本文系统地论述了该工具的组成及其实现最终
本文讨论了普适计算环境下群体用户体验的定量评价问题。分析了群体用户的分类,提出并定义了四种不同类型的群体用户,引入了群体用户体验的概念,对不同类型群体用户体验的定量评价进行了深入剖析,建立了具有统一形式的群体用户体验定量评价模型。该模型基于用户评分和时间因素,综合考虑不同群体成员在信息接受能力、与其他成员关联程度以及对群体用户体验影响程度等方面的差异,实现了对不同类型群体的群体用户体验的定量评价。
普适计算环境的通信技术必须具有良好的透明性才能适应普适应用的特点。普适环境的设备多样性和网络异构性使其透明通信技术具有层次性和多样化特点。本文根据普适计算环境的金字塔需求模型将透明通信技术划分为网络接入、拓扑路由、覆盖网络、自主协同四类关键技术并进行较为深入的分析,最后对未来发展方向进行了展望。
虚拟手是重要的人机交互手段。为了使虚拟手能够自然、和谐的交互,本文深入研究了手势的构造。为了仿真现实中双手工作方式,本文还提出了双手交互模式的形式描述。在虚拟装配原型系统中验证了虚拟手抓取和协同完成装配任务,实践证明基于计算感知的虚拟手对增强虚拟装配的情景真实和工艺验证起到了很重要的作用,也具有较好的性能。
在信息技术高速发展的21世纪,信息全球化的趋势已势不可挡。网络无疑将成为未来人与人之间交流的一个有力媒介。在这种形势下,基于IP网络的视频会议系统在近几年发展十分迅速。多点控制单元(Multi-Control Unit,MCU)是基于H.323 协议的视频会议系统的核心部件,它提供多点会议的管理和控制功能。本文设计并实现了一个具有一定容错功能的MCU,该方案使用了通过网络连接的PC双机备份服务器系
为使用户感受到虚拟手抓持着物体旋转运动时真实的作用力,本文提出了一种基于物理的虚拟手静力抓持物体旋转运动时力觉生成方法。首先构建虚拟手交互的坐标系统,然后,提出虚拟物体姿态变化判断算法,如果虚拟物体姿态发生变化,再运用虚拟手静力抓持最小力螺旋非线性优化模型生成实时生成姿态变化后的真实抓持力。实验结果表明:采用此算法,当虚拟手静力抓着物体旋转运动时,用户可感受到逼真地抓持力觉。
支持情境感知的中间件是普适计算环境下重要的应用支撑平台。本文提出了一种基于情境感知的中间件体系结构,并以自助旅游为应用,实现了相应的中间件原型系统,初步证明了其合理性和有效性。
随着多媒体技术及网络的迅速发展,三维模型也逐渐成为继声音、图像和视频之后的第四种多媒体数据类型,基于内容的三维模型检索也成为近年来研究的热点。为了提高三维模型检索的准确性,在三维模型特征提取之前,需要对模型进行预处理操作。针对预处理问题,研究实现了三维模型坐标系归一化预处理与各向同向性预处理,并且将其应用到三维检索中。实验结果证明,经过预处理操作后,检索的准确性有了很大的提高。
本文利用法线纹理的特性提出一种混合自适应纹理压缩算法以节约有限的纹理内存存储空间和显存带宽。该算法使用三种不同的压缩策略对包含大量、较多或较少的零纹理单元的法线纹理图进行自适应处理。实验结果表明,该算法在最大化保持纹理颜色信息的情况下,可达到较高的压缩率和较低的硬件实现代价,适合低功耗设备 GPU 实现。
交互行为分析是研究人机交互系统的交互行为的描述和分析方法。为简化交互行为分析,本文提出了行为等价的概念。本文以标号迁移系统为基本模型,提出了包括分歧和内部活动的试验设定和过程表示。本文在通用试验语义和语法的基础上,着重研究了踪迹预序和观察预序。