统计口语解析方法研究

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户:luye063006300630
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
口语自动翻译是语音、语言技术领域重要的应用领域之一,具有重要的理论研究意义和实用价值,受到人们越来越多的关注,而口语解析技术是口语翻译系统中的关键部分之一,本文针对口语解析中的语料分析、语块分析和语义解析等问题进行了深入研究,主要成果和创新包括: 1.面向口语解析、以大规模口语语料为基础,针对口语中非规范语言现象进行了统计和分析。首先,对于冗余现象,统计了各种冗余现象中出现频率较高的词汇,分析了冗余现象发生的条件并给出了对冗余现象如何进行处理的建议;其次,对于重复现象,分析了重复现象的特点,并归纳了重复现象发生的各种模式,以便后续的处理。 2.针对口语翻译系统中口语解析的任务特点,提出了口语中出现频率较高的四种语块:名词语块、动词语块、形容词语块和介词语块,并给出了各自的界定标准及准则。分析比较了当前语块分析的各种方法并根据口语语块特点,提出并实现了一种统计口语语块分析方法,并通过不同的实验对其进行了对比分析。 3.提出并实现了一种基于概念语块的统计口语解析方法,该方法具有规则与隐马尔可夫模型(HMM)相结合的特点,既可以实现对句子深层语义分析,同时又保证了一定的鲁棒性。实验表明,该方法能够有效地对口语句子进行解析,具有较高的正确率和较好的鲁棒性。另外,针对统计解析模型HMM,我们提出了一种改进的参数训练方法,该方法能够显著地提高模型解析的正确率。 4.基于上述工作,我们建立了面向中间转换格式(InterchangeFormat,IF)的汉语口语解析系统实验平台,以此为基础,配合美国CMU和德国UKA成功集成了面向2008北京奥运会的多语言口语翻译系统。
其他文献
随着多媒体技术和网络的发展,越来越多的多媒体文件以数字视频的形式展现给顾客和消费者,以及广大观众,并且广泛的分布在网络上。因此,知识产权的保护问题就成为了如今的技术
卫星舱布局设计是考虑将有效载荷(仪器、设备)合理的放置在卫星舱内,以满足卫星设计的各种约束要求并优化各项性能指标,它属于带性能约束的复杂布局设计问题。卫星舱布局优化设
上海城市网格是以Internet网络为基础设施,通过网格技术来整合和管理城市区域的计算资源、信息资源及应用系统,促进城市信息化、智能化的建设。面向交通信息服务的示范应用系统
将现代计算机和网络技术用于政府机构,实现其管理服务的电子化、自动化、无纸化是当前我国信息化建设的重要环节。互连网发展的日新月异,带动了该领域内应用技术的更新,为实现电
原油调合是炼化企业原油加工的首道工序。通过原油调合,可以减少常减压装置(CDU)进料性质波动,从而提高原油利用率,降低成本,提高企业经济效益。目前我国原油调合仍以手动调合为
随着生产制造过程复杂性的增加,传统的基于单机器人的生产系统已经难以满足生产任务的需求。多机器人协作系统得益于自身的特点,提供了更好的灵活性,更强的负载能力,有能力完成一
三维曲面点集的采样、三角形剖分以及据此重构曲面的问题一直是计算几何、计算机辅助几何设计、逆向工程等实际应用中非常重要的课题之一,论文以三维点集作为研究对象,研究了三
多智能体技术是目前人工智能领域的研究热点,它对解决具有空间分布特点的复杂问题有着独特的优势,是一种具有重要研究意义和应用价值的方法。生产调度位于CIMS体系结构中的中间
本课题采用软开关原理,对智能同步开关进行了系统的研究。课题中的开关控制系统以PIC单片机为核心,通过准确捕获电力系统中的电流过零点和电压过零点,控制开关在零电压时刻开通,
工程中实践中的系统大多是非线性系统。同时,实际系统中由于建模误差、测量误差和近似线性化等因素从而使系统不可避免的含有未知参数和干扰,因此研究非线性系统的鲁棒控制具有