中文繁简转换研究与系统实现

来源 :北京师范大学 | 被引量 : 0次 | 上传用户:sanye8879c
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现在使用的汉字有简体和繁体两种形式,中国大陆普遍使用简化字,而中国香港、澳门、台湾以及其他国家和地区的大部分华人聚居区普遍使用繁体字。繁简汉字的差异给两岸四地的沟通与交流造成了巨大的障碍,运用中文信息处理技术实现繁简中文的自动转换是消除这一障碍的迫切需要。   繁体字与简化字并非一一对应,存在着转换模糊,这是中文繁简转换的关键难点。此外,中文繁简转换还面临编码、词汇及语法等方面的转换问题。   本文根据对各地用字标准的比较分析,整理出具有非一一对应关系的繁简字共126组,针对这些繁简字建立了一定规模的以句为单位的繁简对照语料库。以HNC(Hierarchical Network of Concepts,概念层次网络)理论为指导,通过分析繁体中文和简体中文的区别,研究了中文繁简转换的基本问题和处理策略,并开发了一个转换正确率高、具有自学习功能的智能型中文繁简转换系统。   本文的研究内容主要有以下六个方面:   (1)在大量真实文本语料的基础上,以HNC的概念类别和概念组合结构为纲,对具有非一一对应关系的126组繁简字进行了基于规则的逐字分析处理;   (2)分析了中文繁简转换中的词处理的范围、词语差异模式以及处理策略;   (3)讨论了服务于非一一对应关系繁简字转换的字知识库、规则库的建设方法和内容;   (4)整理建立了繁简对照专名库,以解决繁体中文和简体中文在译名方面的转换问题;   (5)对中文繁简转换系统的应用需求和可构建的产品模式进行了分析;   (6)采用C#语言,根据面向对象的编程思想实现了一个繁简中文转换系统。该系统考虑了用户的一些常见的个性化需求。   以上研究内容有利于实现中文信息资源的共享,对促进汉字文化圈内语言文化和经济信息的交流与发展都有重要意义。   中文繁简转换中还有一些问题本文尚未研究和解决,如一些繁简汉字的历时转换问题、非常用词语的繁简转换问题等。
其他文献
竟陵派崛起于晚明,其诗论主张以“灵”为诗心,纠前后七子泥古之失,以“厚”为诗学,救公安俗俚浅陋之病,以古今一贯之“真精神”抒写“真诗”,在幽寒孤峭之境中抒发一己之孤衷
期刊
期刊
本报告以影响金代词坛生成的政治、民族、宗教、对外交往等外部因素与金代词坛的关系为切入点,对金代词坛的动态衍生过程作一全面把握。主要分为:第一,金初分散的政治中心分布与
学位
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
编者按:石材工业的国家与行业标准应依据我国现行有关法律、法规和行业具体发展水平不断修订和补充,这样才能保持标准的权威与生命。国家相关部门正在开展相应工作,部分石材新订
重力式混凝土大坝在施工过程中经常出现裂缝。本文分析了月潭水库温度裂缝和层间裂缝产生的原因,采用不同的裂缝处理技术,通过检测,得到较好的处理效果。
性爱是人类一个古老又常新的话题,它触动的是人类最隐秘的私人世界,暧昧敏感,在这个领域,隐藏着个体满含生命感的秘密。米兰·昆德拉,这位蜚声文坛的写作巨匠,把性爱作为其观察世界
本论文的研究对象是满族说部,目前,我们通过田野调查和访谈掌握了31位满族说部传承人或详或略的情况。满族说部在民间原称为“乌勒本”,即为传或传记,根据内容可分为四类即“
学位
千头万绪的数据啊!剪不断,理还乱,叫人识你也不容易.rn1801年的元旦,有一颗名叫“谷神星”(Cere)的小行星出现在火星和木星之间,而且,很快要隐身到太阳后面去了.当时德国的一