汉语口语对话系统中口语语言分析

被引量 : 4次 | 上传用户:ngnza
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当今信息时代,人机口语对话系统有着广泛的应用需求。口语语言中包含有大量的省略、停顿、重复、自我纠错以及不合语法的现象等,因此在汉语人机口语对话中,口语语言的分析理解是人机对话系统实现的关键和难点。现在的口语对话系统语言的分析处理方法大多采用模板匹配处理方法,然而口语语言的灵活性使得模板数量过于庞大,而且导致系统准确性不高。本文着重研究汉语口语对话系统中的口语语言分析,尝试用内涵概念分析的思想,把对语言的分析上升到概念层次上进行分析来解决该问题。本文研究工作背景来源于上海市科委科技项目限定领域口语对话系统——交通领域口语对话系统SHJTQ, SHJTQ提供上海市任意两个地点之间、在不同的交通方式(步行、自行车、出租车、公交车)下的交通路线信息的查询。目前限定领域的口语语言分析理解的方法大致可以分为两类:概率统计方法和规则分析方法。概率统计分析技术主要基于语言结构的统计特性,缺乏智能性和可靠性。规则分析方法又分为逻辑分析方法和概念分析方法两类。逻辑分析方法以蒙太古的语义学为代表,用模型论来表示片断英语的语义,但要处理真实文本、全面地解释汉语语义,仍然感到逻辑分析的局限性。概念分析是后继的逻辑学家维特根斯坦、奥斯汀、塞尔这些哲学家提出的,语言哲学家以及心理哲学家关心的是有关心理、感觉、情感一类词汇的概念分析,但不注重对于指称实体的词类及其概念的研究。现在的口语对话系统都是在应用层面进行语言的分析处理,提出的解决方法大多采用字串匹配的方法或是在字串匹配的基础上加入一些处理方法。这种分析方法最大的缺点就是字串不同或字串次序变化,分析就会失败。因此无法解释灵活多变的口语语言。本文提出了内涵概念分析的思想,把对语言的分析上升到概念层次上进行分析,口语语言虽然灵活多变,但表达的概念是一样的,从而解决了模板匹配解决不了的问题。从实现角度讲,除音调外一字符串(如短语、句)的语音要用1K数据存储空间,对通常对话的语音处理将占用超大量存储空间。如果改为一汉字一模板,两千常用汉字的语音信息共2K*1K数据,利用汉语是字组合表达概念直接耦合的优点,将字语音模板作为单位,字组合即为语音模板信息组合,可大大减少语音数据,为语音对话使用开创了可行前景。可不限用户使用规定的表达格式、模板可自由表达。但由此带来语言处理的复杂性和重要性。本文充分利用汉语概念内涵模型思想,实现了专用领域内对话词语的概念分析,并获成功。本文研究了SHJTQ中词汇(主要是交通工具类词汇)的内涵特征,提出了名词具有“定义特征”和“情景区分特征”两个概念。在不同语境下,词汇的凸现特征(情景区分特征)有所不同。提出用一种“E—A-V”(实体-属性-值)的方法表征名词的概念。本文研究了SHJTQ中用户问句,针对用户问句多为疑问句的特点,借助言语行为理论的思想,对SHJTQ系统用户查询问句进行了言语行为分类。分析研究了SHJTQ口语语句的内涵概念,根据用户查询问题的分类,逐个将各类用户查询例句了进行概念分析,解决了字串匹配不能解决的口语语言中的各种变异现象,为汉语口语语言的理解研究提供新的思路。本文介绍了限定领域对话系统口语语言的概念分析方法在SHJTQ中的具体应用。着重分析了SHJTQ语言分析模块的设计等,同时本文给出了系统的测试结果和分析。本文研究的创新点主要在如下几方面:1.用概念分析的方法分析汉语口语语言,有别于传统的应用层面上的字串匹配分析方法。从概念层面分析解释了SHJTQ中口语语言,解释了口语语言在形式上灵活多变,但表达的是同一概念。另外采用概念分析方法,汉语和其他语言(如英语等)在体态(形态、时态等)方面的差别就会退化,有助于实现多语种的口语对话。第三,在具体实现方面,有了口语语言的概念分析,语音识别需要的模板量就可以大大减少,可以推进口语对话系统的发展。2.采用“E—A-V”(实体-属性-值)的表示概念语义模型,表征了名词的多义性。本文采用的是陆汝占先生的内涵逻辑分析即概念分析的基本思想,即对一个词语所表示的概念进行分解,求解出上位概念、下位区分概念、定义属性特征以及扩展特征;解释了词语、指称实体、概念三者关系。认为名词是指称实体的词语项,实体包括物理实体和抽象实体两类。名词具有内涵性质即语义特征,提出了“定义特征”和“情景区分特征”两个概念。分析了SHJTQ中词汇(主要是交通工具类名词词汇)的内涵特征,将内涵特征理论引入到汉语语言研究,通过内涵特征来解释纷纭复杂的汉语语义是一个新尝试。3.用内涵概念分析的方法研究了SHJTQ口语语句,根据用户查询问题的言语行为分类,逐个将各类用户查询例句进行概念分析,分析了简单完备用户表述语句、带变异的表述、不完备表述语句,把用户不规范的表达转变成概念层次上规范的查询表达,从而解决了字串匹配无法解决的口语语言灵活表达的问题。实现了概念分析指导下的限定领域口语对话系统。经测试,系统准确性较高。
其他文献
文化是极为复杂的命题,随着全球化的发展,文化在全球范围内的扩张与融合呈现出一种特征更加凸显、内容更加深刻的新态势。"文化帝国主义"则是这一态势下的语词反映。汤林森的
本文通过对我国中部地区两个村村民与村医、乡镇卫生院医生之间医患信任状况的调查发现,村民对村医和乡镇卫生院医生采取的分别是"人际信任"和"制度信任"的信任逻辑;而在农村
[目的]探讨健康教练技术运用于老年2型糖尿病病人出院后的延续性护理效果。[方法]将在我院内分泌科就诊的108例老年2型糖尿病病人随机分为对照组(53例)和试验组(55例)。出院
计算技术、通信技术、传感技术等新科技的飞速发展,使物联网(The Internet of Things)正在成为现实。射频识别技术(Radio Frequency Identification,RFID)作为物联网的重要支
《红楼梦》食物名称语言精练,结构富有特征,文化信息丰富,这给译者的翻译带来了困难。本文分析研究了《红楼梦》杨宪益和Hawkes两个版本中食物名称翻译中的错误,考证了这些食
战略性新兴产业是关系到国民经济社会发展和产业结构优化升级,具有全局性、长远性、导向性和动态性的新兴产业。培育战略性新兴产业,对于构筑城市产业竞争优势具有重要意义。
目的:观察中西医结合治疗输卵管阻塞性不孕症的临床疗效。方法:将造影证实为输卵管阻塞的90例不孕患者随机分为两组,治疗组50例,对照组40例。对照组行输卵管通液术联合抗生素
<正> 《老子》书中的“不榖”,是历代治老学者诂解的难点之一,自汉代至今,诸解纷纭,莫衷一是。对于这个“难点”,我想谈一谈自己的看法。先看《老子》原文。马王堆汉墓帛书甲
目的:比较西格列汀与沙格列汀治疗2型糖尿病的疗效。方法:将50例门诊初次确诊为2型糖尿病的患者随机分为西格列汀组和沙格列汀组各25例,分别用西格列汀或沙格列汀治疗12周,观