用于双模态语音识别系统的多媒体数据库的实现和查询

来源 :图像、仿真、信息技术第二届联合学术会议 | 被引量 : 0次 | 上传用户:sisi830710
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文叙述了用于双模态语音识别系统的多媒体数据库的设计和建立过程,说明了其中的关键技术细节,提出了实现人机交互系统和多媒体数据库的新方法.另外,本文还对多媒体数据库将来的发展方向和本多媒体数据库系统将来的扩展功能作了简单的介绍.
其他文献
本文针对被动式体视技术精度受限的缺点,研究了改善被动式技术三维测量精度的方法.其主要手段是:(1)使用参数曲线精确地逼近(亚象素精度)混有噪声的线段,从而减小测量噪声的影响;(2)利用广义圆锥直接求出连续域空间物体坐标值,基本克服了取样点不够细而引入的量化误差限制.本文算法无需知道两幅图中精确的点对应关系,因而即使是分辨率较低的输入设备,也可达到较高的三维测量精度.
图像经DCT变换后的一些中频系数具有高频和低频折衷的一些特性:在中频区域嵌入水印可以在满足隐蔽性的前提下,通过选择适当的嵌入方式保证一定的稳健性.文章提出一种记忆方式的数字水印算法:将某些中频位置的DCT系数用水印信息所替代(用正负等幅的值表示水印的0,1),嵌入水印后的系数可以完全记忆水印信息,即使图像经过处理只要DCT系数中有很少残存的能量就能够检测出水印.具体的嵌入位置和强度兼顾水印的稳健性
本文在分析当前商业软件进行三维地理环境表现方法的基础上,提出了结合RS与GIS技术、基于真3维空间数据组织来表现地理环境的研究思路和相应的技术途径.使表现三维空间地理环境对不仅具有虚拟表现效果和人机的交互性,同时又满足专业应用领域地理测量和空间分析的要求.
本文简单介绍了透视图及体视图的基本概念,重点讲述了它们在产品三维造型显示输出中的实现方式,具体各坐标的矩阵变换及计算方法,以及用互补色镜片观察体视图的方法.
本文提出了一种视觉语言特征—灰度轮廓权向量差分形状特征,给出了该特征提取的算法.仿真结果表明,该算法与传统的函数变形模型相比,总的特征提取准确率提高了5个百分点,每个发音图像序列特征提取的准确率提高了1.6~9个百分点,每帧图像的特征提取时间由4.6495秒下降到0.4455秒.因此,算法在特征提取的准确性和有效性方面有全面的提高,其鲁棒性和实用性也得到明显的改善,是一种有效的视觉语言特征.
大倾斜航空遥感图像的快速自动镶嵌难度很大,目前国际上商业遥感图像处理软件系统尚不具备此功能.本文结合实际应用背景,提出了一套大倾斜航空遥感图像快速自动镶嵌技术,在此基础上建立了一套实用的快速自动镶嵌系统.本文简要阐述了获取大倾斜遥感图像的工作原理和方式,详细阐述了快速镶嵌的数学模型和实现方法.
本文所介绍的混合激励线性预测编码(MELP)采用了一种新的更符合人发音机制的语音合成模型来合成语音,从而较好地实现了低码率的语音编码.我们对该编码技术进行了深入的算法研究,并在此基础上实现了2.4kbps MELP声码器的计算机模拟,提出了对MELP多级矢量量化搜索方法和基音估计算法的改进,以及用一片TMS320C5402数字信号处理器实现该硬件电路的设计.
将计算与实验结果可视化是当前可视化技术的重要应用领域,本文探讨了基于MATLAB语言的人工嗅觉系统可视化实现方法,实际应用表明将C、C++语言与MATLAB相结合,可以方便地将人工嗅觉系统的输出数据直观、方便地显示出来,实现检测结果的在线可视化.
本文介绍一种适于我国住宅小区的VOD多媒体通信系统.文中讨论了系统的设计考虑,系统的构成和实现,并给出连试结果.
SC2005是LSI LOGIC公司的新一代单片源解码器.本文介绍了SC2005主要功能特性,内部结构,指出了使用中应注意的问题,并给出了一个应用实例.