中文整句智能输入方法研究

被引量 : 12次 | 上传用户:Ryan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自从计算机进入我国,面临的首要问题是中文输入问题。经过20多年的研究,中文的键盘输入从最初的单字输入、词语输入,发展到整句输入,使得输入法越来越具有智能性,能够借助语言的特性提高输入法的性能。中文整句智能输入,实际上是将输入码转换成候选的中文字词,然后根据中文的习惯,选出最大可能的候选语句作为最终的结果。它具有连续输入、不打断用户思路等优点,但是整句转换正确率不高,修改起来比较麻烦,且占用系统资源,使用中不尽人意。本文以拼音输入为例,研究输入法的整句实现,根本目的在于给S&R中文笔画智能输入法增加整句功能,使其在竞争激烈的输入法领域占有一席之地。中文整句智能输入问题可以使用信息论中的信源-信道模型进行描述。假设信源以概率p(S)生成语句S,噪声信道根据p(A|S)把文本的句子转换为拼音序列A。中文整句智能输入问题是根据给定噪声信道输出的拼音序列A,还原原始文本句子S,即选择具有最大后验概率p(S|A)作为输出结果。因此可以采用统计的方法实现中文整句智能输入。在N-gram模型中,把自然语言看成一个离散的马尔可夫模型,假设当前词的出现概率仅与前n-1个词有关,而与其他任何词都不相关。考虑到中文整句智能输入的系统实时性要求,采用二元模型。本文使用SRILM统计语言工具包进行了语料库一元组和二元组的统计,按照首字区位码进行排序,二分查找,有效的建立了便于搜索的统计语言模型。中文整句拼音智能输入系统包括拼音预处理模块、状态空间生成模块和机器学习模块。拼音预处理模块采用最少分词算法将输入的连续拼音流进行切分,输出一个离散的拼音音节序列,送入状态空间生成模块。状态空间生成模块根据输入的音节构造状态空间,插入对应的候选字词节点,在插入的同时,利用Viterbi动态规划算法,将通用语言模型和用户语言模型通过加权结合起来,计算累积概率,最后由状态空间模型回溯算法得到最优语句候选。状态空间生成模块输出的句子经过用户的联机修正成为正确的句子。该模块修改用户学习的二元统计库的概率值,进行记忆学习,从而使系统的自适应能力越用越好。在状态空间模型中,对于插入操作,即用户在原来输入的基础上接着又输入一个拼音,这时只需对新增的拼音节点与前面的拼音节点可能产生的所有字词候选节点进行累积概率计算,插入到状态空间模型中,对于前面已插入的节点无需任何处理。对于删除操作,则更加方便,只需直接删除与拼音节点相关的候选字词节点即可。而当到达用户输入边界,可以依赖右指针域指向尾节点的候选字词节点累积概率最大者的父指针方便的回溯找到最优语句。基于以上的框架本文实现了一个基本的拼音整句输入法,利用网络上公布的有限资源,即切分好的1998年1月份《人民日报》作为统计语言模型的训练文本,采用线性插值平滑方法,测试数据取自自然语言处理平台上的文本分类语料库,领域涉及艺术、文学、教育、哲学、通讯、航空、能源、电子、医药、农业等,其整句的平均字转换正确率达到83.81%。为进一步提高转换的正确率,在统计中融入了语言知识,例如长词优先原则、部分语法规则等,平均字转换正确率提高到85.42%。利用状态空间模型解决了拼音串切分歧义问题。拼音串如果不含分隔符号,则有可能存在歧义,采用一般的切分算法只能保留一种切分结果,而利用状态空间模型,可以将所有歧义组合均保留下来,参与整句拼音转换的竞争,得到全局最优解,而不会因为切分错误较早的将正确答案排除在外。为避免多次构造状态空间模型,进一步提出基于音素的整句实现方法,将音节切分融入整句转换之中,仍然使用状态空间模型,只不过每次插入的是一个音素,而不是切分好的音节,对插入的音素节点,往前搜索,直接将该音素与前面已经输入的音素能组合形成的所有拼音串对应的候选字词插入状态空间,参与整句转换,通过构造一次状态空间模型得到全局最优解。最后还设计了本输入法和微软拼音输入法的测试程序,对二者的整句功能进行测试对比,不断查找转换错误的原因,对本输入法进行改进。本文的主要工作:(1)在没有任何原始积累的条件下,利用有限的资源构造了统计语言模型;(2)在实现拼音字词输入法基础上,利用状态空间模型实现了整句输入功能,其转换正确率已基本接近微软拼音输入法;(3)提出了基于状态空间模型的拼音串歧义切分算法,可以得到所有可能的切分组合;(4)提出基于音素的整句实现方法,可大幅提高存在音节切分歧义的整句转换的正确率;(5)实现了本输入法和微软拼音输入法的测试对比程序,便于对本输入法进行改进。
其他文献
采用极限碳酸盐硬度法和静态阻垢法,考察了阻垢剂PBTCA、HEDP、ATMP、POCA、HPMA、T-225在不同温度条件下的阻垢性能和不同配水条件下的耐硬度、耐碱度性能。低温实验表明,PBTC
目的将改良复制义齿技术用于需要更换全口义齿的患者,观察其使用效果。方法 对9例需要更换全口义齿的患者,应用本课题设计的复制全口义齿技术进行修复,戴义齿1周、2周、1个
本文根据19世纪康区宗教学者工珠的自传文献,论述他在利美运动中对伏藏传统的复兴和发展做出的贡献。作者先用一定篇幅介绍了宁玛派伏藏的基本历史背景,凸显它作为一种思想和
高强高导Cu-Cr合金是近年来新发展起来的功能结构材料,具有较高的强度、良好的塑性和优良的导电性能,在国民经济中有着广泛的应用。尽管人们已经较为系统的进行了研究,但仍有待
目的 探讨糖尿病患者心理卫生、心理障碍发生的相关因素.方法 采用SCL-90评定54例糖尿病患者,并与50例健康者作对照.结果 糖尿病组的躯体化、抑郁、焦虑三项因子分显著高于对
T恤衫是一百多年来经久不衰的服装类别,作为全球最大的服装品种,它具有巨大的市场价值,同时也具有丰富的文化内涵。随着感性需求时代的到来,人们希望T恤不仅仅要满足生理方面的需
公共管理最重要的目的是努力维护、有效增进、公平分配社会公共利益。当前在公共管理领域中,新公共服务理论和治理理论已经把公共利益放在十分突出的位置,认为其是公共管理研
传统观点认为,滇越边疆民族地区远离国家权力中心,边民在族内跨国通婚的现象较为普遍,族群认同远强于国家认同。事实上,滇越边民跨国通婚,并未严格遵循国家相关法规,地域的改
油浸式变压器具有散热好、损耗低、容量大、价格低等特点。目前电网上运行的电力变压器大部分为油浸式变压器,其中80%以上是采用自然油循环的冷却方式。目前国内油浸式变压器普
随着现代远程教育在我国快速发展,远程教育资源和课件建设也在逐步加强,网络教学系统更是层出不穷。个性化学习是现代远程教育中一个研究热点,本文通过分析各种以个性化学习为目