语音合成系统中自动分词技术的研究

来源 :哈尔滨理工大学 | 被引量 : 0次 | 上传用户:daweinihao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音合成技术是信息处理领域的一个重要分支,是人工智能的一个重要研究方向。语音合成的核心技术主要体现在文本分析和合成语音时的韵律控制。其中文本分析是语音合成的基础,主要包括:特殊符号转换、词的切分等。自动分词的准确率严重影响到后续模块输出语音流的自然度,是文本分析系统的核心内容。本文主要目标是设计并实现一个中文自动分词系统。在分析了自动分词面临的主要困难的基础上,旨在降低分词难度和提高分词精度。本文采用了基于改进词典和机械分词相结合的分词算法,运用基于词典的方法处理文本并结合正反向最大匹配分词方法消除歧义。本文算法在两个方面进行了改进。首先是在分词词典方面,将以往单一的词典分为基本词典和特征词词典两个部分。改进了基本分词词典在内存中的存储结构,采用了双字哈希索引结构将词典中的词按前两个字为索引关键字进行存储,提高了匹配查找的速度。在匹配过程中结合特征词词典大大提高了机械分词的准确率,提高了对姓名、地名和数量词的正确切分率,减少这些词所引起的歧义数量,节省了歧义处理时间,提高了分词速度。其次是在机械分词方面的改进,实现了正向与反向最大匹配分词结合的双向分词匹配,在进行分词时,可以根据需要分别选择正向或反向最大匹配。系统同时实现了屏幕分词与文件分词的两项功能。对比过去单一的分词方式,此系统提供了两种分词模式,对比分词结果,有利于把握分词的准确性。根据个人喜好及用途还可以选择屏幕分词与文件分词,极大方便了使用者。测试结果表明分词算法具有较高的分词速度与准确率,在歧义的处理上也是比较准确的。基本上可以满足语音合成系统中文本分析实际应用的要求。分词系统在歧义处理等方面仍然有一些不足之处,还不能解决所有在中文自动分词中遇到的问题,仍然有不少未登录词和歧义目前还不能解决。
其他文献
数字音视频编解码标准——先进音视频编码标准(AVS)是我国自主制定的数字电视、IPTV等音视频系统的基础性标准。AVS标准第2部分(AVS-P2)属高效的第二代视频编码技术,拥有与H.
昆虫病原线虫(Entomopathogenic Nematode)作为重要的害虫生防因子成为国际防治领域的研究热点。如何提高昆虫病原线虫繁殖力和如何提供适宜的施用环境等问题一直影响着线虫
随着半导体工艺的持续发展,晶体管的截止频率和最大工作频率不断提升。根据国际半导体技术蓝图(ITRS)报导,CMOS晶体管的截止频率在2021年有望达到0.9THz,毫米波集成电路设计
西电新闻网讯 3 月11 日,省长刘国中主持召开省政府第六次常务会议,研究了2019 年度省科学技术奖励工作.会议决定,授予杨绍卿、安芷生、郝跃三位院士2019 年度陕西省最高科学
期刊
光学技术高速发展的今天,测量物质非线性的方法已呈现多样化。不论哪种方法其目的都是为了更好的从大量材料中选出理想的材料。其中并联双4f相干技术以自身的光路简单、灵敏
作为马达驱动产品类的一种,无刷直流电机(BLDCM)驱动器得到了广泛的研发和应用。本文首先讲述两种无刷直流电机驱动方式,包括有感驱动:利用霍尔传感器进行换相控制和无感驱动:利用反电动势进行换相控制,叙述了各自的原理和其控制技术。针对笔记本散热应用的单相电机,本文将叙述集成霍尔传感器和功率管的单相电机驱动IC的设计方法。详细的叙述了其中两大关键模块:霍尔检测放大电路和PWM频率转换电路的设计。电路设
新课标“关于写作的评价”中指出:重视对作文修改的评价。要注意考察学生修改作文的态度、过程、内容和方法。要引导学生通过自改和互改,取长补短,促进相互了解和合作,共同提高写
对地处我国亚热带北缘地区的九江市内九江、星子两县以森林生境为主的不同生境的外来植物种组成和区系起源等情况进行了抽样调查。在庐山保护区内、外森林内外及田边、路缘等
无线传感网络以其应用广泛、方便携带、能耗低等独有的特点,越来越受到人们的关注,但现场节点的供电是一个瓶颈问题。大多数采用电池的系统,更换和维护电池问题较为突出,成为无线
学位