基于深度学习的中文拼音输入法

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:zhoujianqin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文拼音输入法是一种便捷的计算机汉字输入解决方案,它的使用体验依赖于其核心组件:拼音汉字转换模块。近几年,随着相关模型和技术的发展,深度学习已经被广泛应用于各种自然语言处理任务中。然而在输入法相关的研究领域这一块几乎是空白的。本文主要针对相关深度学习技术应用于拼音输入法研究的可行性进行分析,从输入法音字转换模块、词典更新模块、模型预训练技术、辅助输入法构建四个方向对输入法进行改进,期望带来一定的用户体验指数提升。主要工作包含以下四个方面:首先,针对输入法的核心模块,将输入法拼音汉字转换的工作模式视作拼音到汉字的翻译过程,迁移学习机器翻译相关的技术,构建遵循序列到序列框架的神经音字转换模型。实验证明,该方法同传统方法相比能在一定程度上提升输入法的音字转换准确度。其次,介绍多种粒度的词嵌入增强方法,在传统的词嵌入训练方法中加入了字粒度、子词粒度的表示信息来增强语义表示,为后续的音字转换任务提供更多的信息来帮助提升音字转换的准确度。除此之外,还提出一种门注意力增强模型,用于挖掘重要的上下文记录所携带的信息。实验证明这种预训练方法除了能提升输入法的预测准确度外,还可能够在用户输入不完整时帮助输入法返回完整、准确的汉字序列给用户。在一些测试实例上我们发现输入法可以给出额外的预测信息来提示用户产生了笔误。再次,提出自适应词典更新算法,结合在线学习的训练方法与目标词过滤机制,使输入法能够学会开放域学习,并能有效跟踪用户行为,从而进一步提高输入法性能。通过对标准语料库和真实输入历史的评估表明,系统能够很好的适应多样的用户输入,并能够实现优秀的预测准确度。最后,实现Moon拼音输入法,一个包含高质量音字转换质量和检索式关联模块的拼音输入法。前者采用基于注意力的神经机器翻译模型,后者用于辅助用户打字的后续预测和自动补全模块。还介绍了一个通用云关联平台,为用户提供了可定制关联学习服务。通过强大的可定制设计,云关联平台可以适应任何特定领域的文本输入。实验和可用性分析表明,核心音字转换模块与最先进的研究模型有一定的可比性,关联功能稳定,可用性高,可以更快捷地进行完整预测,甚至可以帮助校正输出。发布的输入法支持Windows平台运行,遵循文本服务框架。
其他文献
特高压现场试验设备是用于现场测试特高压交、直流输电设备电气性能和结构功能的重要装置。传统的特高压现场试验设备往往采用的是开放式结构,设备尺寸十分庞大,不便于运输携带,每次试验前的现场装配过程也比较麻烦,因此,实现特高压现场试验设备的小型化和轻型化在实际工程中具有重要意义。现场试验设备的尺寸选择主要是依据设备的绝缘要求,采用SF6气体绝缘设计代替传统的空气绝缘可以大幅减小设备的尺寸,减轻设备的重量,
学位
无论是在制造业还是服务业,统计过程控制都是质量管理的重要环节之一。控制图作为统计过程控制中的重要工具,可以对产品制造过程进行全面监控并针对异常状态及时发出报警信号。随着研发技术和制造工艺的提升,对控制图的适用性和精准度提出了更高的要求,待监测数据的维度从一维延伸到了多维,数据类型也从数值型拓展到了混合型。混合型数据包括数值型和类别型,其中类别型数据又可以分为顺序型和名义型。顺序型数据只有一定的等级
学位
随着人们对环境的日益重视,电动汽车因其零排放的特点逐渐成为了主流的交通工具。同时,无线电能传输技术因其便捷性也成为电动汽车相关研究的热点和发展趋势。然而,在无线充电电动汽车商用化的道路上依旧存在两个关键问题,即金属检测与定位引导。本文分析和总结了有关金属检测的30余项国内外研究成果以及国际上公开的专利,根据检测的方法将其分为基于无线电能传输系统的检测、基于辅助线圈的检测以及其他原理检测三大类。通过
学位
工程机械驾驶室的声学舒适性较差是当前制约国产工程机械市场占有率的重要问题。进行工程机械驾驶室噪声的溯源分析,并针对性地对主要噪声来源进行降噪改进设计,是解决此问题的有效手段。传递路径分析(Transfer Path Analysis,TPA)是实现这一目标的有效方法之一。其中工况传递路径分析(Operational Transfer Path Analysis,OTPA)方法因为具有便于实现的特点
学位
出租车作为城市交通中的重要模式分担,通过其行车轨迹浮动车数据研究市民出行行为对缓解城市交通尾气排放具有现实意义。本文以上海市为案例,结合强生出租车全天GPS数据、地铁刷卡数据以及摩拜单车GPS数据,对市民出行时空规律进行分析。在此基础上,选取社会经济和人口统计、城市形态与土地利用和出行行程相关因素三类自变量,分别对出行高峰与非高峰时段建立Binomial Logit模型,对出行者在地铁与出租车以及
学位
相比于传统微创器械的手动操作,微创腔镜机器人可实现直观操作和增强的灵巧性,同时避免了人工握持器械时的手部颤抖风险。近年来,由于市场广阔,微创腔镜手术机器人的发展得到了重点关注。目前,多数微创腔镜手术机器人系统选择在操作臂的末端安装直杆状手术工具,通过实现操作臂的远心不动点运动以实现腹腔内的手术操作。与此相对应的是连续体手术执行臂,具有不进行远心不动点运动便可实现腔内灵活操作的能力。本文介绍了这种连
学位
大型城市多采用地下变电站解决用电需求剧增和土地资源有限的矛盾,由于噪音限制和散热需求的不同,地下变电站中多采取分体式结构,即将变压器箱体和冷却系统分开布置。而地下变电站变压器分体冷却系统的冷却效能是影响其温度场并决定其绝缘老化速率的重要因素之一。根据分体式变压器温度场及流场的分布情况准确快捷地计算其冷却系统的冷却效能对合理评价变压器冷却系统的冷却性能、判断冷却装置的运行缺陷具有重要意义,是变压器设
学位
截止目前,中高端精细等离子电源市场一直被欧美企业所垄断。国内虽有研究精细等离子电源的文献和厂家,但实现批量化生产的产品还很少。为了改变这一局面,本文针对精细等离子电源产业化过程中的诸多关键技术进行了研究与试验,以便提高产品各方面的可靠性和一致性。本文首先根据精细等离子切割技术的工艺要求,研究了交错并联Buck电路拓扑,对功率回路元器件进行了设计选型,建立了功率回路的电路平均法小信号模型;利用补偿网
学位
本文针对多智能体同步发电机的状态估计及其一致性跟踪问题提出了一种基于滑模控制器的高增益观测器。由于同步发电机被并入到分布式发电机单元时,微电网的稳定性和可靠性会受到很大挑战,因此本文通过利用滑模控制器实现了有限时间下同步发电机状态轨迹的收敛。此外,所提出的控制器还具有误差收敛速度快、抗干扰能力强等优点。另一方面,系统若要具备有效识别多智能体同步发电机非线性响应的复杂性,且通过为高增益观测器选择足够
学位
随着电力电子技术的发展,电力电子系统的运行功率等级越来越高,并且常常应用于复杂的工况下。为确保电力电子系统的安全运行,降低因意外故障带来的经济损失,对电力电子系统的可靠性进行综合评估测试并形成完整的可靠性理论评估体系具有重要的现实意义。其中,对占故障主导地位的功率半导体开关器件、电容器等元器件的深入研究也尤为重要。电力电子工况模拟技术可以更方便、更准确地对电力电子关键部件以及整个系统的可靠性参数进
学位