【摘 要】
:
中文文本正则化(Text Normalization)是把非汉字字符串转换为汉字字符串以确定其读音的过程。文本正则化在语音合成、语音识别、机器翻译、主题检测、文本挖掘等领域有着重要
论文部分内容阅读
中文文本正则化(Text Normalization)是把非汉字字符串转换为汉字字符串以确定其读音的过程。文本正则化在语音合成、语音识别、机器翻译、主题检测、文本挖掘等领域有着重要应用。加权有限状态转换器(Weighted Finite StateTransducer,WFST)是一种很好的规则与统计相结合的技术,本文以WFST为框架,设计并实现了一个中文文本正则化系统。
本文的工作主要包含三方面:一,分析了中文文本正则化问题,给出了一种新的基于构成形式的分类体系;二,设计并实现了一个基于加权有限状态转换器的中文文本正则化系统;三,构建了一个中文文本正则化的评价库。
本文所设计的文本正则化系统主要由三个模块构成:规则集合,词典和语言模型。本文利用合成(Composition)算法对各层模型进行合并,并使用WFST的确定化(Determination)、最小化(Minimization)算法对搜索网络进行优化。在解码方面,本文采用最短路径搜索算法实现了最优结果解码。
系统采用人民日报语料进行训练,在人民日报语料上评测显示,引入二元和三元语言模型后,正则化的句正确率比随机选择规则进行解码的句正确率最大可提高54.86%。将各模型合并形成静态搜索网络并优化后,在线解码时间比应用各网络分步解码时间减少了69.59%。
其他文献
随着信息技术的发展,网络已经成为人们生活不可或缺的一部分。物联网的出现使得网络概念从互联网发展到人与人、物与物、人与物互联互通的网络。作为物联网感知层的无线传感器
随着消费类电子产品相关技术的不断发展,开机速度已成为电子产品是否能脱颖而出的重要决定因素,很多产品在追求即开即用的效果。在这样的行业需求下,本文针对北大众志PKUnity
随着当前科学研究领域的不断扩展与发展,科学计算的算法越来越复杂,涉及的数据规模越来越大,带来程序开发复杂性和计算效率两方面的难题。
任务群计算(Many-Task Computing
随着电子技术的发展,爆闪式信号灯在多个领域内获得了广泛地应用。如何提高爆闪灯的产品质量是当前一个重要的研究课题。对爆闪式特种信号灯的质量检测更具有重要的研究意义和广泛的应用价值。但是,如何在大规模批量生产中实现对爆闪灯快速准确的检测,仍是目前爆闪灯的生产领域亟待解决的“瓶颈”问题。因此,本学位论文设计一种爆闪式信号灯的智能型检测仪,通过其对产品质量进行测试与评估。首先,本文对爆闪式信号灯的工作原理
运动人体的跟踪技术研究是机器视觉领域的核心课题之一,目前被广泛应用在视频编码、智能交通、智能监控、图像检索及军工等众多领域中。本文就低对比度的复杂环境下运动人体
真实感绘制一直是计算机图形学的一项基本研究内容。它首先在计算机中构建场景的几何模型,然后根据假定的光照条件,计算在最终图像上可见的各物体表面的光亮度,并使用纹理映
关键短语自动标引技术可以有效地从文本中自动抽取出关键短语,近年来一直是自然语言处理领域的研究热点之一。其中,自动抽取方法是当前主流的标引方法。在本文中,我们对关键短语
随着Web2.0的发展,社交网络迅猛发展。它为人们提供了一个强大的分享、组织、搜索内容和建立联络的平台,已成为人们生活中不可缺少的一部分。日益增多的社交网络之上的应用,如人
近年来,随着无线网络和相关智能终端迅速普及和发展,无线网络服务在以前所未有的步伐改变着人们的生活。但是,人们对无线网络的设计、管理、流量监管和服务质量等方面的认知和把
在线社会网络(Online Social Network,OSN)作为一种新型的Web体系结构,近年来得到广泛的使用。人们使用OSN实现了数据的分享(日志、照片、视频等)和社会关系的维护(通过给朋