基于VQ和ASR的多媒体课件检索

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:tsgistsgis
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在E-learning教学环境中,多媒体课件是使用最为广泛的教学内容载体。而针对多媒体课件的检索服务可以使学生方便地选择他们所感兴趣的部分从而提高了教学效率。基于语音的内容检索是常用的多媒体文件检索,依靠相对较为成熟的语音识别技术这一检索技术在基于内容的多媒体文件检索领域具有很高的应用与研究价值。本文将针对E-learning应用环境,研究基于语音识别的多媒体资料检索方法。由于多媒体课件来自于各个专业,涵盖的内容较广且包含一些专业术语,在对其进行检索的过程中很难建立一个较完善的语言模型。因此本文提出的方法直接在声学模型级别完成搜索和匹配以避免词汇量不够(OOV)的情况。此外,由于课件均在实际教室中录制,其语音质量往往不高,本文提出的方法还将具备一定的容错能力。本论文的主要工作包括:1、研究并设计向量量化技术(VQ)对隐马尔可夫模型(HMM)的状态进行聚类并生成相应的码表,以用于对语音文件进行预处理的阶段。这一步骤主要将耗时较多的语音信号特征的提取与比较在离线状态下完成,并将语音信号匹配转换成状态序列的符号匹配,以便在实时处理检索请求时系统具有较快的反应速度。2、多级检索算法将利用路径搜索算法进行关键词检出(keyword spotting)作为初级检索,给出一组粗略的候选结果。利用自动语音识别技术(ASR)作为次级检索对候选结果进行筛选,验证等处理,最终找出与关键词相匹配的项并根据似然度评分原则排序输出。为学生提供多媒体课件检索服务。3、利用上述方法实现原型系统,并在实际课件点播环境中测试其性能。同时研究相应算法在该环境中的可行性。
其他文献
机器翻译是自然语言处理领域的一个分支,其主要任务是利用计算机将文本从一种语言翻译到另一种语言。在过去的十年里,机器翻译在学术界与工业界都得到了长足的发展。在机器翻
随着当前互联网技术的快速发展,互联网通过其低廉的通讯成本和快速的通讯能力使得企业、学校和政府等部门的组织模式产生了巨大的变化。现在人们更愿意以互联网作为信息交流
模拟法庭是法学专业教学中重要的实践环节。传统的模拟法庭存在着实践活动组织困难、缺少优秀师资和不便监管等状况。为了改善这些状况,构建基于网络的模拟法庭教学实践平台
在信息时代背景下,语音是人们日常生活中最直接的信息传递与交换形式。而现实生活中,多数语音往往伴随着噪声,使人感到舒适度下降。听力受损的人理解不同背景噪声下的语音是
内容管理是当前信息化建设领域的热点。越来越多的机构、企业开始关注研究内容管理,研制开发内容管理系统。有关专家断言,在接下来的信息化建设中,内容管理将是关键所在。本
传统农业大多劳动强度大,对劳动经验有较强的依赖性,智能农业机械导航系统将是解决此问题的有效方法之一。基于双目视觉的导航系统因价格低廉,信息丰富等优点受到越来越多的
在工业生产环境中,将无线技术应用于工业测控系统,带来传统测控系统无法比拟的优势。由于工业无线网络中信道环境复杂和无线节点资源受限等因素,现有无线网络的路由机制已经
现代安全系统中,加密算法通常需要在不同的复杂环境中执行,而应用环境中用户的密钥一旦泄露往往直接导致传统安全方案的完全失效,事实上此类密钥泄露在真实环境下是难以杜绝
RFID与企业业务流程进行集成已成为RFID领域的一个重要的研究方向。而现有的RFID业务流程集成方案大都基于传统的业务流程引擎,并不能很好地满足RFID业务流程的需求。并且现
Ad Hoc网络是一种不依赖于固定基础设施的移动网络,在这个网络模式中,移动节点既是主机也是路由器,它是完全自组织、自适应的由无线节点组成的新型网络。无论是在军事、抢险,还是