人机对话系统中若干关键问题研究

被引量 : 10次 | 上传用户:f654753936
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人机对话系统是自然语言处理技术应用的前沿领域,它的性能的好坏取决若干关键问题,包括:会话言语的结构分析,会话言语的语义理解,会话过程的调度管理等等。本文的研究围绕着这些关键问题展开,并取得了如下5个方面的成果:(1)独立的提出了基本会话结构的概念。综合语言本身和工程应用的要求,本文从4个方面对基本会话结构的概念做出了限定,认为a)基本会话结构就是会话结构中最基本的对答单元b)由两个或者两个以上不同言语者的言语行为序列所组成c)形式上固定地表现为引发语后接应答语的稳态结构d)具有明确的语义内涵。以此为基础,进而提出了多层次的浅层会话结构标记体系,并应用于TSC973电话口语语料库。基本会话结构概念的提出将言语行为的研究朝着会话结构的方向作了有益的延伸;同时又避免了完整的HCRC方案难以实现的尴尬,具有显著的实践背景和现实意义。(详见第二章)(2)本文首次将HHMM模型应用于会话结构分析。本文采用由简至繁的方式依次展示了如何将朴素贝叶斯、HMM,HHMM应用于浅层会话分析。在HHMM算法方面,本章首先展示了HHMM的PCFG等价表达,然后进一步说明HHMM可以采用CKY来进行解码,并且给出了具体的解码算法。针对HHMM时空耗费较高的缺陷,我们首次提出了它的分层求解体系,分为两个层面三个部分:两个层面是语义层面和语法层面;三个部分包括基本会话结构边界识别,基本会话结构语义识别,基本会话内部拓扑识别。对于基本会话结构的边界识别,本文提出了基于最大熵的两种方案Model-Maxent-V1和Model-Maxent-V2;对于基本会话结构的语义识别,本文提出了一种分层的规则和统计相结合的处理框架;对于基本会话结构的内部拓扑识别,本文首先将其因子化为位置因子,正反因子,语用因子三个部分,然后分别加以处理:对应位置因子,本文采用HMM来识别;正反信息和语用信息在TSC973语料库中规律性比较强,本文仅仅采用了一些简单的规则处理方法。我们的实验表明,HHMM分层求解体系最终输出的F值为39.54%,较HMM模型和朴素贝叶斯模型均有显著提高,其中比HMM模型的F值提高6.33个百分点。(详见第二章)(3)率先对会话结构的无监督推导作了探索性的研究。作为会话结构有导识别的延伸和拓展,本文率先对会话结构的无监督推导作了探索性的研究。特别的,本文将研究的焦点集中在基本会话结构边界的无监督学习上。首先,通过阐述言语行为之间互信息分布图,展示了互信息分布和基本会话结构边界的关联性,在一定程度上说明了通过言语行为之间的关联程度来进行基本会话结构边界探测的合理性;其次,提出了一种基本会话结构组块的综合评分机制,分别从组块内连接强度和组块间连接强度两个方面来衡量一个目标组块成为基本会话结构的可能性,并且在此基础上构造了基于动态规划的无监督切分算法,实现了在完整会话范围内寻求最优切分。实验结果显示基于组块综合评分机制的系统性能F值达到69.16%,较基于MI的无监督推导性能高出近15个百分点。(详见第三章)(4)提出了一种改进了的基于议程的DM管理框架。对话的任务结构表现在过程性结构和描述性结构两个方面,为了更好的处理具有这两种典型结构的复杂任务,本文在基于议程的对话管理系统的框架中引入了特征结构(FS),从而不仅保留了原有过程性处理方面的优点,同时又结合了特征结构适用于描述复杂对象的特点,有效的拓展了DM对于复杂对话任务的处理能力。(详见第四章)(5)提出了一种基于随机森林的浅层句法分析的算法。对于CoNLL2000提出的浅层句法分析任务,本文提出了一种新型的基于随机森林的算法,研究表明本文提出的算法能够降低对系统内存的需求,并且展示了通过Bootsrap、Subspace等多途径引入随机性能够在整体性能上形成局部峰值,从而实现性能的改善。实验表明基本模型+Bootstrap 5棵树、15维时出现峰值,F_β达到92.25%,优于基本模型性能最大值0.46个百分点。(详见第五章)
其他文献
<正> 何子淮老师从医50余年,在妇科临床中造诣颇深,尤擅长治疗疑难急症,每屡起沉疴,深受病家爱戴。今收录以下几个病案,以飨同道。 益气缓痛、祛瘀止血治暴崩 例1 王某某,女,
炼钢电炉烟尘是钢铁企业中主要污染源之一,具有排放量大、烟气温度高、粉尘细且具亲水性等特点,捕集与净化困难。随着我国钢铁工业结构调整,超高功率、强化冶炼及铁水热装等电炉
财务预警机制是企业选择重点检测财务指标,确定财务危机警戒标准,监测和发现财务危机,及时警示有关负责人员,并分析企业发生财务危机的原因、企业财务运行潜在的问题,提出防
通过对CPⅢ网测量过程中的关键环节进行分解,提出相应的质量控制措施及注意事项,这些合理有效的质量控制措施为高质量的CPⅢ测量提供保证,有力保障高速铁路的顺利建设。
城乡社区治理涉及方方面面,是一个十分复杂的问题,今天本人结合自己的研究积累和认识,主要讲三个“关键词”。第一个关键词是“精准”。改革开放以来,在我们党的正确领导下,我国经
期刊
本文回顾了历代医家对肺胀的病因、病机理论的认识与治疗的经验,结合作者的临床实践,分析了益气活血化痰法对肺胀的治疗效果。
阐述了SolidWorks二次开发原理,提出了基于零件尺寸遍历的尺寸驱动建模二次开发方法并详细论述了开发思路。以VBA为开发工具,运用SolidWorks API技术,实现了此方法在SolidWor
在ZG29Mn Mo Ni钢基体堆焊RMD142焊材制造模具,通过控制变量法探讨了堆焊电流、堆焊电压和堆焊速度不同参数对过渡层组织和晶粒的影响,使过渡层获得最佳的显微组织和性能。试
利用粉末冶金法制备了不同烧结温度的Si Cp增强Al-Si基复合材料,用X射线衍射仪、布氏硬度计、ML-10摩擦磨损机、扫描电镜等对样品的物相组成、布氏硬度、磨损性、表面形貌等