基于结构信息的语音理解研究综述

来源 :计算机光盘软件与应用 | 被引量 : 0次 | 上传用户：fzy321

【摘要】

：

【作者】

：

张剑潘晓衡袁华强

【出处】

：

计算机光盘软件与应用

【发表日期】

：

2013年8期

【关键词】

：

语音理解人机交互文档结构语音文档信息抽取

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　摘要：语音理解作为人机交互研究的关键技术，近年来受到越来越多研究者的关注。尤其是如何挖掘语音文档中结构信息，用于帮助语音理解方面，已经有许多重要的研究成果。首先对近年基于结构信息的语音理解领域中的研究成果进行综述，然后展望未来基于结构信息的语音理解技术可能的研究热点。
　　关键词：语音理解；人机交互；文档结构；语音文档；信息抽取
　　中图分类号：TP314
　　作为人机交互实现中的关键技术——语音理解，已经成为近年来领域内的研究热点之一。而语音文档理解技术，起源于书面文档理解的研究，其工作起始于20世纪50年代。本文首先将从（1）传统的书面文档中的结构信息抽取与应用研究[1][2]；（2）新兴的语音文档中的结构信息抽取与应用研究[3][4][5][6][7][8][9][10][11][12]，这两个方面对基于结构信息的自动语音理解领域现有的研究成果进行综述；然后对基于结构信息的语音文档理解研究进行展望
　　1书面文档中的结构信息抽取与应用
　　考虑到文档结构对于理解文档的重要性，有研究者[1][2]提出抽取一些书面文档的结构特征，并将它们用于文档的主题分段与摘要的抽取。Barzilay等[1]提出了一种无监督学习的主题分段算法中。并将算法应用在信息排序与抽取式摘要任务中。他们的实验结果显示：结构特征能有效地提高性能。Branavan等[2]提出了结构化区分性模型算法，进行书面文档的目录自动生成任务。所生成的文档目录可以看作是一种导向型的文档摘要。由于语音文档与书面文档不同，以上这些传统的书面文档主题分段与主题建模算法无法有效地应用于处理语音文档：首先，它们忽略了语音文档中各个主题事件的时间顺序，不能抓住文档当中所隐含的主题线索；其次，语音识别所产生的文本信息错误对于算法性能有很大的影响。
　　2语音文档中的结构信息抽取与应用
　　对于语音文档理解，有研究者[3][4][5][6][7]提出了一些算法用于对语音文档的结构进行建模，并发现准确的结构信息有助于进行文档的主题分段与摘要的抽取。Eisenstein等[3]提出了基于贝叶斯方法的无监督词汇衔接驱动的主题分段算法。他们的算法将词汇衔接与核心词组特征综合起来进行主题分段建模，并且在书面文档数据集与语音文档数据集进行了数值实验。Tatar等[4]和Kawahara等[5]采用了Hearst算法[6]进行文档分割并检测出文档中的主题信息，进一步应用这些信息进行文档摘要和长语音段的语音识别。Hirohata等[7]提出了基于语音段位置特征的语音摘要算法。他们考虑到人们通常在演讲语音的介绍部分与结论部分放入更多重要信息，提出只从这两个部分抽取语音摘要内容。同时通过计算语音段与整个语音文档的余弦相似度数值分布情况，得到粗略的语音文档结构信息：将语音文档分成三个部分（介绍部分，内容部分，结论部分）。
　　语音文档包含两部分信息：语音信号信息和由语音识别系统生成的语音文本信息。以上这些研究工作都只考虑使用语音文本信息寻找语音文档的结构，极少有研究如何使用语音信号信息进行语音文档结构建模的。已有研究者发现，语音特征、韵律特征等从语音信号中抽取出来的特征与语音文档结构有密切的联系[8]。Hirschberg&Nakatani[8]的研究发现讲话风格与语音文档中主题分段有着天然的联系。他们还比较了在同一文档结构块中不同位置语音段的语音特征和韵律特征。
　　针对以上语音文档理解与摘要研究中的问题：抽取式摘要缺乏结构信息，难以阅读理解；没有考虑语音文档自身所有的语音信号信息与文档结构的相关性；没有在语音文档结构以及摘要提取中加以利用语音特征。在ZhangJ.[9]中首次展示了演讲语音浅层修辞结构与各类语音文档特征相关性的统计证据，并提出了有关演讲语音浅层修辞结构建模与摘要的新算法，用于生成有文档结构的演讲语音摘要。在ZhangJ.[10]中，我们提出了演讲语音含浅层文档结构的语音摘要数据库的构建方法，为语音理解与摘要的研究奠定了坚实的工作基础。
　　3总结与展望
　　本文对近年来语音文摘领域所取得的研究成果进行了全面的综述。基于结构信息的语音理解和文摘提取，能够帮助人们从语音文档中抽取出隐含的结构信息，更快速准确地理解语音。在未来几年中，它将成为本领域研究热点和前沿。如何分析深层次语音文档结构；应用不同的机器学习算法，提高抽取语音文档结构的性能，并运用抽取的结构信息，改善语音理解与文摘抽取的性能等都将成为研究者关注的主要方向。
　　参考文献：
　　[1]R.BarzilayandL.Lee,Catchingthedrift:Probabilisticcontentmodels,withapplicationstogenerationandsummarization[C].ProceedingsofHLT-NAACL,pp.113-120,2004.
　　[2]S.Branavan,P.Deshpande,andR.Barzilay,Generatingatable-of-contents[C].inannualMeeting-AssociationforComputationalLinguistics,vol.45,no.1,2007,p.544.
　　[3]J.EisensteinandR.Barzilay,Bayesianunsupervisedtopicsegmentation[C].inProceedingsoftheConferenceonEmpiricalMethodsinNaturalLanguageProcessing.AssociationforComputationalLinguistics,2008,pp.334-343.
　　[4]D.Tatar,E.Tamaianu-Morita,A.Mihis,andD.Lupsa,SummarizationbyLogicSegmentationandTextEntailment[J].AdvancesinNaturalLanguageProcessingandApplications,pp.15-26,2008.
　　[5]N.Y.AKITA,Y.andT.Kawahara,PLSA-basedtopicdetectioninmeetingsforadaptationoflexiconandlanguagemodel[C].Proc.Interspeech2007,pp.602-605,2007.
　　[6]M.Hearst,TextTiling:SegmentingTextintoMulti-paragraphSubtopicPassages[J].ComputationalLinguistics,vol.23,no.1,pp.33-64,1997.
　　[7]M.Hirohata,Y.Shinnaka,K.Iwano,andS.Furui,Sentenceextraction-basedpresentationsummarizationtechniquesandevaluationmetrics[C].Acoustics,Speech,andSignalProcessing,2005.Proceedings.(ICASSP’05).IEEEInternationalConferenceon,vol.1,2005.
　　[8]J.HirschbergandC.Nakatani,Aprosodicanalysisofdiscoursesegmentsindirection-givingmonologues[C].Proceedingsofthe34thconferenceonAssociationforComputationalLinguistics,pp.286-293,1996.
　　[9]Zhang,J.,Chan,H.Y.andFung,P.Extractivespeechsummarizationusingshallowrhetoricalstructuremodeling[J].InIEEETransactionsonAudio,SpeechandLanguageProcessing,18(6):pp.1147-1157.2010.
　　[10]Zhang,J.,andFung,P.ActiveLearningwithSemi-automaticAnnotationForExtractiveSpeechSummarization[J].InACMTransactionsonSpeechandLanguageProcessing,8(4),Article6,2012.
　　基金项目：广东省高等学校科技创新项目(2012KJCX0099)，广东省自然科学基金博士启动基金(No.S2012040007560)，2012年东莞理工学院校博士启动基金（No.ZJ120408）。
　　作者简介：张剑（1982-），男，江西南昌人，助理研究员，博士，研究方向：语音理解、语音文摘、自然语言理解、人工智能；潘晓衡（1983-），男，湖南湘潭人，工程师，硕士，研究方向：机器学习、智能计算、人工智能；；袁华强（1966-），男，湖南湘潭人，教授，博士，研究方向：机器学习、人工智能。
　　

其他文献

调查显示：网民对AOL和MSN的满意度不高

期刊

AOL公司MSN公司网民互联网服务提供商

电子商务策略的核心——客户资料库

期刊

电子商务客户资料库互联网

JAVA语言的异常处理——《Practical Java》中文版精彩选读

对于计算机语言的学习,语法、语义和语用三者的学习都缺一不可。目前国内关于Java 的书籍可谓淋漓满目,不过大多是关于“Java平台”的,单独就 Java 语言的语法、语义和语用进

期刊

JAVA语言程序设计语言异常处理书评《PracticalJava》中文版

虚拟化技术在企业中的应用

随着我国社会的不断发展以及经济水平的逐渐提高,我国科技领域也得到了全新的发展机遇。信息化时代的到来,在给人们生活带来便利的同时,也给企业的生产与发展带来了创新。虚

期刊

虚拟化技术信息化桌面虚拟化服务器虚拟化

把CMOS和UML结合在一起

自从1994年CMOS问世以来．它的任务就是在软件开发过程的初期精确定义系统行为。但是对于系统开发来说．还有比定义系统行为更重要的事情。很多CMOS用户都在诸如RUP(Rational Uni

期刊

CMOS软件开发过程UML建模语言RUP读取系统开发用户

民主革命时期毛泽东对资本主义和社会主义关系的认识

毛泽东认为民主主义革命是社会主义革命的必要准备,社会主义革命是民主主义革命的必然趋势.民主主义革命一方面是替资本主义扫清道路,同时又是替社会主义创造前提.在民主革命

期刊

民主革命时期毛泽东资本主义社会主义中国民主主义革命社会主义革命Mao Zedong socialism capitalism relatio

基于粗糙集的网络入侵检测模型

面对当前愈发重要的信息安全形势，入侵检测系统作为保护计算机网络安全的关键技术，长期以来都是当前网络安全领域内的研究热点。入侵检测也被看作是计算机防火墙后的第二道安全

期刊

入侵检测信息安全计算机网络安全粗糙集

从法学自然主义到利益法学

[摘要]从19世纪到20世纪，欧洲法学家们对法律是什么这个法学核心问题的回答，大体上经历了从自然主义法学到利益法学的转变。回顾这段学术史，对于我们今天深刻理解法律是什么的命题，以及法官在司法裁判中如何把握法律的真正要求，都仍然具有重要的启示意义。　　[关键词]法学自然主义；利益法学；概念法学；目的法学　　一、法学自然主义的兴起　　实证主义因其放逐价值的鲜明立场而常被误认为与自然法论毫无瓜葛，但事实

期刊

法学自然主义利益法学概念法学目的法学

福利多元主义视角下社区养老服务的多元主体供给

随着人口老龄化问题日趋严峻,社会的养老负担逐步加剧且迫切需要解决。社区养老服务虽然刚刚兴起,却成为一个有效解决社会养老问题的可行方案,因为其成本相比于在每个地区建

期刊

人口老龄化社区养老服务多元主体供给

首届全国优秀共享软件及自由软件评选活动追踪报道（二）

由“中国软件行业协会”主办，csdn.net(中国软件网)承办的“首届全国优秀共享软件及自由软件评选活动”(详见本刊2001年创刊号)，自2000年12月15日正式开通投票网站以来，得到了广

期刊

中国首届评选活动中国软件行业用户数厂商追踪报道优秀创刊号

基于结构信息的语音理解研究综述

与本文相关的学术论文