汉字数码输入法功能的分析与研究

来源 :中国中文信息学会汉字编码专业委员会第八届年会 | 被引量 : 0次 | 上传用户:litian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着手机及各类PDA产品的普及,汉字数码输入法成为众多汉字输入法研究者关心的课题.一个好的汉字数码输入法不仅要求编码原理好,而且要求输入法软件功能齐全.本文通过对五笔数码、数字五笔、纵横码、四角柳码这四种数码输入法功能的分析,讨论了各自的优缺点,指出了一个好的汉字数码输入法应具备的功能.
其他文献
2000年我们和德国Konstanz工业技术大学国际术语和应用语言学研究中心合作开发了全信息标注语料库.该语料库包含被标注的汉语词语8000个.这是迄今为止我们见到的首次标注全信息的语料库.本文对该全信息语料库的开发与应用进行介绍.全文分为四个部分:一、全信息及全信息的内容;二、全信息的标注与语料校对,三、问题研究,四、全信息标注语料库的应用.
本文分析了我国汉字编码现状,提出了“以形出发、以形为主、形音结合、输入与书写结合”的“形音码”编码原则,主张中文信息处理应有利于继承和弘扬汉字的民族文化传统,提高全民族识别汉字的能力,促进汉字的学、写、认教学;文中论述了促进中文信息处理的规范化、科学化等问题,并重点阐明了对汉字实施“书写拆分”的重要性和必要性;最后建议政府有关职能部门应尽早规范汉字技术市场.
中国政府于2000年3月17日日颁布的GB18030-2000编码标准采用了单字节、二字节和四字节符混合的方式进行汉字编码,并且要求操作系统必须在2001年9月分之前遵守这个标准.本文介绍了基于GB18030编码标准字符集的中文Linux操作系统的设计和实现,提出基于GB18030编码标准字符集的中文Linux操作系统的实现框架,把实现分为核心支持系统、基本支持系统和完全支持系统,同时实现了核心支
首先介绍了特定领域多语种信息抽取系统的基本模型,并针对该系统的预处理模块的需要,提出了一种基于机器学习方法的文本分类系统.该系统通过boosting算法,对一个易实现的弱分类器进行增强,最后获得一个强分类器,从而避免了直接构造强分类器的困难.实验证明,相对于直接构造强分类器,该算法具有简单灵活,易于实现的优点,其构造出来的分类器达到了信息抽取系统的要求.
词义排歧是NLP中的热点和难点问题,支持排歧的资源提供了排歧的知识,同时也决定了排歧的方法.本文通过挖掘《知网》中提供的信息,实现了一种基于实例的词义排歧方法.该方法在确定词义时,充分利用了隐藏在词形背后的词义信息,以《知网》中提供的例子作为初始实例库,通过不断的自学习,达到了良好的排歧效果.
CNM系统的主要特点是在互联网的代理服务器中应用基于FIFA算法的内容主题识别技术,实现企业网络信息监管.本文详细介绍了CNM系统的三个主要模块:数据获取、内容主题分析、统计分析.最后讨论CNM系统的不足和改进.
知识工程是大多数机器翻译系统开发过程中的一个重要环节.针对传统知识工程的人工代价高、周期长而可移植性差的问题,本文提出了一种“知识标注”的策略以解决知识库的复用问题.该策略以语言学为基础,以语料标注为手段,以翻译系统所需知识为核心,使知识工程的设计和实施逐渐独立于具体的系统架构,从而为解决这一瓶颈问题创造条件.
本论文试图从科技文体角度,研究汉语和阿拉伯语若干句子结构的异同,主要目的是把汉语和阿拉伯语的语法知识形式化,并从理论上设想能否进行汉阿机器翻译……
码本是指输入系统所对应的汉字及词组的编码、属性等信息的文件,是汉字输入系统的基础.本文介绍了输入法字码本和词组码本的采集、整理、转换的一般过程,对汉字输入法码本的前期处理做了一个总括.
词组切分是现代中文信息处理的基础,是汉语自然语言理解与处理、机器翻译、智能检索、电子词典等信息处理的前提.本文分析了汉字输入训练中词组切分的特点,介绍了汉字输入训练中词组切分方法的具体设计以及切分词典的组织与检索上的一些方法和技巧.