论文部分内容阅读
大数据时代背景下,如何快速准确地从海量音频库中检索感兴趣的内容已经成为当前亟待解决的问题。传统的基于文本的音频检索并不能很好地解决这一问题,因而面向内容的音频信息检索便受到了研究者们的广泛关注。本研究针对普通话广播电视新闻音频数据,探索了音频信息检索中的两项技术:基于样例的普通话新闻检索和基于大词汇量连续语音识别(Large Vocabulary Continuous Speech Recognition,LVCSR)的普通话新闻检索。这两项技术虽然都是在新闻音频库中搜索与查询请求相关的音频片段,但前者的查询请求是音频样例,而后者的则是关键词或短语,它们分别对应音频样例检索和语音文档检索两个研究方法。本研究的主要创新和贡献包括以下几个方面:1.基于样例的普通话新闻检索算法音频样例检索中,高维特征向量的提取过程复杂且相似度计算量大,针对该问题,本研究探索并实现了基于语谱图的音频指纹提取算法。结合音频指纹特征,提出了基于倒排索引的检索算法,克服了顺序索引方法在检索时需要遍历数据库的难题,显著地加快了检索速度。同时,提出了基于语音活动检测的改进检索算法,有效避免了查询音频过长给检索速度带来的负面影响。2.基于大词汇量连续语音识别的普通话新闻检索算法本研究首先提出了一种文本无关的新闻故事分割算法,与绝大多数在语音识别结果上实现新闻分割的算法不同,它直接在音频流上进行故事分割,并能取得较好的分割效果。其次,LVCSR系统将新闻故事音频转换为文本前,需要对音频预处理,本文研究了LVCSR系统的前端处理算法。同时,为了充分利用说话人分割聚类中的话者信息,以此提高音频分割的准确度,引入了两步新闻音频分割算法。在音频预处理的基础上,搭建了一个面向普通话新闻音频的LVCSR系统。最后,在检索算法方面,实现了基于Lucene的全文检索算法,并提出了基于词向量的相关检索词推荐算法,利用该算法可以返回查询关键词或短语的相关搜索。3.普通话检索系统的设计与实现基于上述算法的研究与改进,本文最终采用web界面设计并实现了一套普通话新闻检索系统。该系统不仅可以高效地完成基于样例和基于LVCSR的普通话新闻检索,而且提供了友好的用户交互,达到了实用化的程度。