论文部分内容阅读
摘要:语音理解作为人机交互研究的关键技术,近年来受到越来越多研究者的关注。尤其是如何挖掘语音文档中结构信息,用于帮助语音理解方面,已经有许多重要的研究成果。首先对近年基于结构信息的语音理解领域中的研究成果进行综述,然后展望未来基于结构信息的语音理解技术可能的研究热点。
关键词:语音理解;人机交互;文档结构;语音文档;信息抽取
中图分类号:TP314
作为人机交互实现中的关键技术——语音理解,已经成为近年来领域内的研究热点之一。而语音文档理解技术,起源于书面文档理解的研究,其工作起始于20世纪50年代。本文首先将从(1)传统的书面文档中的结构信息抽取与应用研究[1][2];(2)新兴的语音文档中的结构信息抽取与应用研究[3][4][5][6][7][8][9][10][11][12],这两个方面对基于结构信息的自动语音理解领域现有的研究成果进行综述;然后对基于结构信息的语音文档理解研究进行展望
1书面文档中的结构信息抽取与应用
考虑到文档结构对于理解文档的重要性,有研究者[1][2]提出抽取一些书面文档的结构特征,并将它们用于文档的主题分段与摘要的抽取。Barzilay等[1]提出了一种无监督学习的主题分段算法中。并将算法应用在信息排序与抽取式摘要任务中。他们的实验结果显示:结构特征能有效地提高性能。Branavan等[2]提出了结构化区分性模型算法,进行书面文档的目录自动生成任务。所生成的文档目录可以看作是一种导向型的文档摘要。由于语音文档与书面文档不同,以上这些传统的书面文档主题分段与主题建模算法无法有效地应用于处理语音文档:首先,它们忽略了语音文档中各个主题事件的时间顺序,不能抓住文档当中所隐含的主题线索;其次,语音识别所产生的文本信息错误对于算法性能有很大的影响。
2语音文档中的结构信息抽取与应用
对于语音文档理解,有研究者[3][4][5][6][7]提出了一些算法用于对语音文档的结构进行建模,并发现准确的结构信息有助于进行文档的主题分段与摘要的抽取。Eisenstein等[3]提出了基于贝叶斯方法的无监督词汇衔接驱动的主题分段算法。他们的算法将词汇衔接与核心词组特征综合起来进行主题分段建模,并且在书面文档数据集与语音文档数据集进行了数值实验。Tatar等[4]和Kawahara等[5]采用了Hearst算法[6]进行文档分割并检测出文档中的主题信息,进一步应用这些信息进行文档摘要和长语音段的语音识别。Hirohata等[7]提出了基于语音段位置特征的语音摘要算法。他们考虑到人们通常在演讲语音的介绍部分与结论部分放入更多重要信息,提出只从这两个部分抽取语音摘要内容。同时通过计算语音段与整个语音文档的余弦相似度数值分布情况,得到粗略的语音文档结构信息:将语音文档分成三个部分(介绍部分,内容部分,结论部分)。
语音文档包含两部分信息:语音信号信息和由语音识别系统生成的语音文本信息。以上这些研究工作都只考虑使用语音文本信息寻找语音文档的结构,极少有研究如何使用语音信号信息进行语音文档结构建模的。已有研究者发现,语音特征、韵律特征等从语音信号中抽取出来的特征与语音文档结构有密切的联系[8]。Hirschberg&Nakatani[8]的研究发现讲话风格与语音文档中主题分段有着天然的联系。他们还比较了在同一文档结构块中不同位置语音段的语音特征和韵律特征。
针对以上语音文档理解与摘要研究中的问题:抽取式摘要缺乏结构信息,难以阅读理解;没有考虑语音文档自身所有的语音信号信息与文档结构的相关性;没有在语音文档结构以及摘要提取中加以利用语音特征。在ZhangJ.[9]中首次展示了演讲语音浅层修辞结构与各类语音文档特征相关性的统计证据,并提出了有关演讲语音浅层修辞结构建模与摘要的新算法,用于生成有文档结构的演讲语音摘要。在ZhangJ.[10]中,我们提出了演讲语音含浅层文档结构的语音摘要数据库的构建方法,为语音理解与摘要的研究奠定了坚实的工作基础。
3总结与展望
本文对近年来语音文摘领域所取得的研究成果进行了全面的综述。基于结构信息的语音理解和文摘提取,能够帮助人们从语音文档中抽取出隐含的结构信息,更快速准确地理解语音。在未来几年中,它将成为本领域研究热点和前沿。如何分析深层次语音文档结构;应用不同的机器学习算法,提高抽取语音文档结构的性能,并运用抽取的结构信息,改善语音理解与文摘抽取的性能等都将成为研究者关注的主要方向。
参考文献:
[1]R.BarzilayandL.Lee,Catchingthedrift:Probabilisticcontentmodels,withapplicationstogenerationandsummarization[C].ProceedingsofHLT-NAACL,pp.113-120,2004.
[2]S.Branavan,P.Deshpande,andR.Barzilay,Generatingatable-of-contents[C].inannualMeeting-AssociationforComputationalLinguistics,vol.45,no.1,2007,p.544.
[3]J.EisensteinandR.Barzilay,Bayesianunsupervisedtopicsegmentation[C].inProceedingsoftheConferenceonEmpiricalMethodsinNaturalLanguageProcessing.AssociationforComputationalLinguistics,2008,pp.334-343.
[4]D.Tatar,E.Tamaianu-Morita,A.Mihis,andD.Lupsa,SummarizationbyLogicSegmentationandTextEntailment[J].AdvancesinNaturalLanguageProcessingandApplications,pp.15-26,2008.
[5]N.Y.AKITA,Y.andT.Kawahara,PLSA-basedtopicdetectioninmeetingsforadaptationoflexiconandlanguagemodel[C].Proc.Interspeech2007,pp.602-605,2007.
[6]M.Hearst,TextTiling:SegmentingTextintoMulti-paragraphSubtopicPassages[J].ComputationalLinguistics,vol.23,no.1,pp.33-64,1997.
[7]M.Hirohata,Y.Shinnaka,K.Iwano,andS.Furui,Sentenceextraction-basedpresentationsummarizationtechniquesandevaluationmetrics[C].Acoustics,Speech,andSignalProcessing,2005.Proceedings.(ICASSP’05).IEEEInternationalConferenceon,vol.1,2005.
[8]J.HirschbergandC.Nakatani,Aprosodicanalysisofdiscoursesegmentsindirection-givingmonologues[C].Proceedingsofthe34thconferenceonAssociationforComputationalLinguistics,pp.286-293,1996.
[9]Zhang,J.,Chan,H.Y.andFung,P.Extractivespeechsummarizationusingshallowrhetoricalstructuremodeling[J].InIEEETransactionsonAudio,SpeechandLanguageProcessing,18(6):pp.1147-1157.2010.
[10]Zhang,J.,andFung,P.ActiveLearningwithSemi-automaticAnnotationForExtractiveSpeechSummarization[J].InACMTransactionsonSpeechandLanguageProcessing,8(4),Article6,2012.
基金项目:广东省高等学校科技创新项目(2012KJCX0099),广东省自然科学基金博士启动基金(No.S2012040007560),2012年东莞理工学院校博士启动基金(No.ZJ120408)。
作者简介:张剑(1982-),男,江西南昌人,助理研究员,博士,研究方向:语音理解、语音文摘、自然语言理解、人工智能;潘晓衡(1983-),男,湖南湘潭人,工程师,硕士,研究方向:机器学习、智能计算、人工智能;;袁华强(1966-),男,湖南湘潭人,教授,博士,研究方向:机器学习、人工智能。
关键词:语音理解;人机交互;文档结构;语音文档;信息抽取
中图分类号:TP314
作为人机交互实现中的关键技术——语音理解,已经成为近年来领域内的研究热点之一。而语音文档理解技术,起源于书面文档理解的研究,其工作起始于20世纪50年代。本文首先将从(1)传统的书面文档中的结构信息抽取与应用研究[1][2];(2)新兴的语音文档中的结构信息抽取与应用研究[3][4][5][6][7][8][9][10][11][12],这两个方面对基于结构信息的自动语音理解领域现有的研究成果进行综述;然后对基于结构信息的语音文档理解研究进行展望
1书面文档中的结构信息抽取与应用
考虑到文档结构对于理解文档的重要性,有研究者[1][2]提出抽取一些书面文档的结构特征,并将它们用于文档的主题分段与摘要的抽取。Barzilay等[1]提出了一种无监督学习的主题分段算法中。并将算法应用在信息排序与抽取式摘要任务中。他们的实验结果显示:结构特征能有效地提高性能。Branavan等[2]提出了结构化区分性模型算法,进行书面文档的目录自动生成任务。所生成的文档目录可以看作是一种导向型的文档摘要。由于语音文档与书面文档不同,以上这些传统的书面文档主题分段与主题建模算法无法有效地应用于处理语音文档:首先,它们忽略了语音文档中各个主题事件的时间顺序,不能抓住文档当中所隐含的主题线索;其次,语音识别所产生的文本信息错误对于算法性能有很大的影响。
2语音文档中的结构信息抽取与应用
对于语音文档理解,有研究者[3][4][5][6][7]提出了一些算法用于对语音文档的结构进行建模,并发现准确的结构信息有助于进行文档的主题分段与摘要的抽取。Eisenstein等[3]提出了基于贝叶斯方法的无监督词汇衔接驱动的主题分段算法。他们的算法将词汇衔接与核心词组特征综合起来进行主题分段建模,并且在书面文档数据集与语音文档数据集进行了数值实验。Tatar等[4]和Kawahara等[5]采用了Hearst算法[6]进行文档分割并检测出文档中的主题信息,进一步应用这些信息进行文档摘要和长语音段的语音识别。Hirohata等[7]提出了基于语音段位置特征的语音摘要算法。他们考虑到人们通常在演讲语音的介绍部分与结论部分放入更多重要信息,提出只从这两个部分抽取语音摘要内容。同时通过计算语音段与整个语音文档的余弦相似度数值分布情况,得到粗略的语音文档结构信息:将语音文档分成三个部分(介绍部分,内容部分,结论部分)。
语音文档包含两部分信息:语音信号信息和由语音识别系统生成的语音文本信息。以上这些研究工作都只考虑使用语音文本信息寻找语音文档的结构,极少有研究如何使用语音信号信息进行语音文档结构建模的。已有研究者发现,语音特征、韵律特征等从语音信号中抽取出来的特征与语音文档结构有密切的联系[8]。Hirschberg&Nakatani[8]的研究发现讲话风格与语音文档中主题分段有着天然的联系。他们还比较了在同一文档结构块中不同位置语音段的语音特征和韵律特征。
针对以上语音文档理解与摘要研究中的问题:抽取式摘要缺乏结构信息,难以阅读理解;没有考虑语音文档自身所有的语音信号信息与文档结构的相关性;没有在语音文档结构以及摘要提取中加以利用语音特征。在ZhangJ.[9]中首次展示了演讲语音浅层修辞结构与各类语音文档特征相关性的统计证据,并提出了有关演讲语音浅层修辞结构建模与摘要的新算法,用于生成有文档结构的演讲语音摘要。在ZhangJ.[10]中,我们提出了演讲语音含浅层文档结构的语音摘要数据库的构建方法,为语音理解与摘要的研究奠定了坚实的工作基础。
3总结与展望
本文对近年来语音文摘领域所取得的研究成果进行了全面的综述。基于结构信息的语音理解和文摘提取,能够帮助人们从语音文档中抽取出隐含的结构信息,更快速准确地理解语音。在未来几年中,它将成为本领域研究热点和前沿。如何分析深层次语音文档结构;应用不同的机器学习算法,提高抽取语音文档结构的性能,并运用抽取的结构信息,改善语音理解与文摘抽取的性能等都将成为研究者关注的主要方向。
参考文献:
[1]R.BarzilayandL.Lee,Catchingthedrift:Probabilisticcontentmodels,withapplicationstogenerationandsummarization[C].ProceedingsofHLT-NAACL,pp.113-120,2004.
[2]S.Branavan,P.Deshpande,andR.Barzilay,Generatingatable-of-contents[C].inannualMeeting-AssociationforComputationalLinguistics,vol.45,no.1,2007,p.544.
[3]J.EisensteinandR.Barzilay,Bayesianunsupervisedtopicsegmentation[C].inProceedingsoftheConferenceonEmpiricalMethodsinNaturalLanguageProcessing.AssociationforComputationalLinguistics,2008,pp.334-343.
[4]D.Tatar,E.Tamaianu-Morita,A.Mihis,andD.Lupsa,SummarizationbyLogicSegmentationandTextEntailment[J].AdvancesinNaturalLanguageProcessingandApplications,pp.15-26,2008.
[5]N.Y.AKITA,Y.andT.Kawahara,PLSA-basedtopicdetectioninmeetingsforadaptationoflexiconandlanguagemodel[C].Proc.Interspeech2007,pp.602-605,2007.
[6]M.Hearst,TextTiling:SegmentingTextintoMulti-paragraphSubtopicPassages[J].ComputationalLinguistics,vol.23,no.1,pp.33-64,1997.
[7]M.Hirohata,Y.Shinnaka,K.Iwano,andS.Furui,Sentenceextraction-basedpresentationsummarizationtechniquesandevaluationmetrics[C].Acoustics,Speech,andSignalProcessing,2005.Proceedings.(ICASSP’05).IEEEInternationalConferenceon,vol.1,2005.
[8]J.HirschbergandC.Nakatani,Aprosodicanalysisofdiscoursesegmentsindirection-givingmonologues[C].Proceedingsofthe34thconferenceonAssociationforComputationalLinguistics,pp.286-293,1996.
[9]Zhang,J.,Chan,H.Y.andFung,P.Extractivespeechsummarizationusingshallowrhetoricalstructuremodeling[J].InIEEETransactionsonAudio,SpeechandLanguageProcessing,18(6):pp.1147-1157.2010.
[10]Zhang,J.,andFung,P.ActiveLearningwithSemi-automaticAnnotationForExtractiveSpeechSummarization[J].InACMTransactionsonSpeechandLanguageProcessing,8(4),Article6,2012.
基金项目:广东省高等学校科技创新项目(2012KJCX0099),广东省自然科学基金博士启动基金(No.S2012040007560),2012年东莞理工学院校博士启动基金(No.ZJ120408)。
作者简介:张剑(1982-),男,江西南昌人,助理研究员,博士,研究方向:语音理解、语音文摘、自然语言理解、人工智能;潘晓衡(1983-),男,湖南湘潭人,工程师,硕士,研究方向:机器学习、智能计算、人工智能;;袁华强(1966-),男,湖南湘潭人,教授,博士,研究方向:机器学习、人工智能。