基于LSH的语音文档主题分类研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:a370298894
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在语音信号广泛应用的今天,如何对其进行合理和有效的管理,是目前语音信号处理研究的重点之一,其中语音文档的主题分类是人们研究的热点。本文首次将局部敏感哈希算法应用到语音文档主题分类中,旨在克服目前的分类算法在时间上消耗太大的缺点。与已有的分类算法相比,局部敏感哈希算法能够直接在高维稀疏矩阵上进行分类,它与数据维数和数据点个数之间的子线性关系使其时间复杂度很低,能够使分类系统更加实用化。本文在深入研究局部敏感哈希算法的基础上,对算法的关键参数进行了改进,使其分类更加准确;改进了算法的实现方法,进一步减少了算法消耗的时间。论文首先应用TF-IDF权重和后验概率TF-IDF权重分别对识别后的语音文档进行了向量空间模型的建立,使其成为能够被计算机直接识别和处理的数据形式;其次采用稳定分布下的局部敏感哈希函数直接的对文档向量进行哈希散列,利用稳定分布的特性保证了在欧氏空间中数据的位置关系;再次深入的分析了局部敏感哈希算法的关键参数对分类结果的影响,在通过实验计算出最佳参数的基础上,利用局部敏感哈希算法对语音文档进行了两种判决方法下的分类实现;最后对局部敏感哈希算法进行了改进,更进一步的减少了算法的分类时间消耗。此外,论文将多维KD树应用到语音文档的主题分类中。最后,论文对7041篇、四个类别的语音文档进行了主题分类,通过实验分别在分类准确度和时间消耗两个方面比较了局部敏感哈希算法和多维KD树的性能。实验结果说明,局部敏感哈希算法能够实现对语音文档的快速准确分类,并且比多维KD树在时间上有很大的优势。
其他文献
陕汽于2015年12月18日在西安举行2015商务年会。会上,陕汽发布了全新X3000系列重卡平台、“车轮滚滚”平台和“千人创富计划”。此举表明,陕汽的重心已经从制造领域这片红海向
准确的信道状态信息是数据可靠接收的重要保证,信道估计作为无线通信系统的关键问题一直是无线通信领域的研究热点。传统奈奎斯特(Nyquist)采样定理支配下的信道估计方法,导频开
随着通信技术的飞速发展,以及智能无线通信设备的普及,移动互联网的发展得到了极大的推动,人们对于无线通信的质量要求也越来越高,这样的情况使得频谱资源日益紧张,频谱资源的短缺
自从新课改实施以来,小学语文教学对于教师和学生都提出了新的要求.新课改之下的小学语文教学,明确指出小学阶段的语文教学要以培养学生的阅读能力和写作能力为主.因此教师在
近年来,脑-机接口系统的发展得到了众多国内外研究人员的关注,并成为神经工程领域一个新的研究热点。随着脑-机接口的不断发展,研究人员正试图将BCI技术应用到实际生活中。但
作为第四代移动通信的核心技术之一,正交频分复用(Orthogonal Frequency DivisionMultiplexing,OFDM)的局限在于具有很高的峰值平均功率比(Peak-to-Average PowerRatio,PAPR),具有高P
海天背景下的舰船目标检测作为红外目标检测的一个研究领域,在军事上具有较高的研究价值,其性能的优劣将直接影响到后续目标识别和目标跟踪的准确性。本文针对海天背景下红外
公共场所中,由于人员密度大、安全出口设计的缺陷、人员的不确定性等都会增加安全隐患。一旦有火灾、毒气散发、炸弹爆炸、和恐怖威胁等突发事件发生,都会导致人群产生恐慌情
随着通信技术的迅猛发展,人们对无线电频谱资源的需求日益强烈,为提高频谱利用率,认知无线电技术应运而生。认知无线电技术是指认知用户可以动态感知空闲频谱,并在保证不对授
2014年12月17日,上汽依维柯红岩举行了以“品质·铸红岩”为主题的“2015年营销商务年会”。2014年,受自卸车大幅下滑影响,上汽依维柯红岩业绩并不理想,仅销售2.5万辆,同比下降11%