论文部分内容阅读
在语音信号广泛应用的今天,如何对其进行合理和有效的管理,是目前语音信号处理研究的重点之一,其中语音文档的主题分类是人们研究的热点。本文首次将局部敏感哈希算法应用到语音文档主题分类中,旨在克服目前的分类算法在时间上消耗太大的缺点。与已有的分类算法相比,局部敏感哈希算法能够直接在高维稀疏矩阵上进行分类,它与数据维数和数据点个数之间的子线性关系使其时间复杂度很低,能够使分类系统更加实用化。本文在深入研究局部敏感哈希算法的基础上,对算法的关键参数进行了改进,使其分类更加准确;改进了算法的实现方法,进一步减少了算法消耗的时间。论文首先应用TF-IDF权重和后验概率TF-IDF权重分别对识别后的语音文档进行了向量空间模型的建立,使其成为能够被计算机直接识别和处理的数据形式;其次采用稳定分布下的局部敏感哈希函数直接的对文档向量进行哈希散列,利用稳定分布的特性保证了在欧氏空间中数据的位置关系;再次深入的分析了局部敏感哈希算法的关键参数对分类结果的影响,在通过实验计算出最佳参数的基础上,利用局部敏感哈希算法对语音文档进行了两种判决方法下的分类实现;最后对局部敏感哈希算法进行了改进,更进一步的减少了算法的分类时间消耗。此外,论文将多维KD树应用到语音文档的主题分类中。最后,论文对7041篇、四个类别的语音文档进行了主题分类,通过实验分别在分类准确度和时间消耗两个方面比较了局部敏感哈希算法和多维KD树的性能。实验结果说明,局部敏感哈希算法能够实现对语音文档的快速准确分类,并且比多维KD树在时间上有很大的优势。