文语转换方法研究——文本分析

来源 :长安大学 | 被引量 : 0次 | 上传用户:xiaobaby2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的发展,语音交互已经成为人机交互的必要手段。让计算机发出自然流畅的语音是人们梦寐以求的事,随着语言学、语音学、计算机技术的发展这个目标离我们越来越近了。近几年虽然有一些文语转换产品问世,但是,这些产品与人们所期望的成熟产品还有相当大的差距。 本文的主要研究内容是文本分析。它是文语转换的第一个模块,目的是为文语转换系统奠定良好的基础。文本分析主要包括文档结构分析、文本规范化、语法分析、韵律建模和字音转换五个部分。本文的成果主要有: (1)研究了常用的分词词典机制,在此基础上提出了按首字建立一级索引、按次字位号建立二级索引的分词词典的构造方法。该方法既可应用在整词二分分词词典中,也可应用在逐字二分分词词典中。实验表明使用该方法可以提高词典的查找速度。这一方案为提高分词速度奠定了基础。 (2)在对分词方法进行了对比研究之后,针对解决交叉歧义问题提出了两种方法。一种方法是无交叉叠加的方法。这一方法在使用逐字最大匹配法分词之后,对这些词语进行交叉叠加,得出词语的切分方法。无交叉叠加的方法,算法简单有效,但算法的时空性能比动态规划方法要差。二是基于组合特征的分词方法。这一方法根据交叉词语的组合特性,先找出所有可能的组合,然后筛选掉不符合条件的组合,并且可以得出歧义链长和词语组合对照表。根据对照表可直接得出词语的切分方法。这一方法实现简单,而且在算法的时空性能上比现有的分词方法都有所提高。但是,这一方法是针对解决交叉歧义问题的,不适用于解决其它的歧义问题。 (3)在介绍了几种歧义处理方法之后,考虑到本文使用组合方法得出的切分结果是一个个句子,因此,本文选择N元语法进行歧义处理。此外,为了获取N元语法中所需要的每个词语的频率,本文利用互联网的搜索引擎进行统计来获取词频。 这些研究工作为提高分词速度奠定了基础,为解决歧义问题提供了可借鉴的方法,具有一定的参考价值。
其他文献
消防部门救援的及时性、准确性直接关系到国民经济的发展,尤其是人民的生命财产安全。面对复杂多变的火场情况,消防指挥员应能依据火场的周边环境及着火建筑的内部结构,在最短的
随着无线技术的发展和无线通讯设备的不断普及,人们不再满足于固定的信息访问方式,开始使用无线设备(如PDA、智能手机等)进行移动电子商务贸易,如无线电子邮件服务、手机银行服
随着因特网业务量的不断壮大,网络宽带化己成为建设信息高速公路的重点。宽带城域网的建设为远程监控提供了高速的业务平台,而Web技术无疑已经占据信息平台的主导地位。我们应
系统化复用被认为是解决软件危机的重要途径。领域工程是实现系统化复用的重要手段。领域工程的出现改变了传统的软件开发的模式,面向领域的软件开发越来越受到关注。领域工
近几年来,移动Ad hoc网络研究在国际国内得到了显著的重视,Ad hoc网络具备无需基础设施、临时组网、动态网络拓扑和自组织的优点,非常适合于会议、学术交流、灾难救援和恢复、家
目前视频编码正在从第一代基于宏块的方法向第二代基于内容、对象的方向发展。基于对象、内容的新理念,对数字视频的压缩、检索等方面的应用产生了深远的影响。但是这一切功
网络蠕虫以其多样性的传播方式、快速的繁殖能力和破坏能力不断造成损失。当前运用最为广泛的网络蠕虫检测系统多采用误用入侵检测技术,其检测能力在很大程度上取决于攻击特
随着XML技术的不断发展及其应用领域的不断扩展,越来越多的数据开始用XML进行描述、存储和交换。XML数据流的分析和查询研究成为数据库研究领域的热点。现有的XML文档的查询
进入21世纪,信息技术在迅速发展,同时也加快了农业信息化的进程。农业信息服务作为农业信息化进程中具有支撑作用的资源要素,为农业信息化提供了各类服务保障。随着我国信息化进
预测对决策具有重大指导意义。时间序列预测是一种根据历史数据构造时间序列模型来预测未来的一种方法。是多学科交叉的研究领域。现实世界多是非线性、不确定、开放性的复杂