双语语料库的XML表示及其自动分类方法研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:wodeweibo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文首先探讨了如何使用XML来表示双语语料库.XML是一个可扩展的标记语言,该文利用它的可扩展特性,吸收了CES的一些优点,根据双语语料库的需要,定义了一个适用于 标注双语语料库的文档类型定义.在提出对双语语料库的分类之前,该文介绍了文档自动分类算法研究的分类、文档表示模型和常用的分类算法.接着该文在现有算法的基础上提出了一个改进的文档自动分类算法.通过对当前算法的研究,针对双语语料库的特点进行了改进,并实现了该算法.实验结果证明,该算法能实现对单、双语文档进行分类,并且能在一定程度上提高分类的精确率和召回率.
其他文献
该文详细阐述了手写汉字识别系统的工作的原理和工作流程,并在特征值提取和模式分类的两个关键环节上提出了一些新的理论和算法.给出了一种新的手写汉字识别方法,与传统的统
期刊
期刊
笔者基于群机环境下的微核心操作系统MACH,对负载平衡问题进行系统地研究,具体贡献如下:1.在剖析微核心MACH和其对负载分布的支持基础上,设计和实现了基于MACH微核心的负载平
CAI积件理论是在CAI课件的基础上提出的一种新的理论.EquationEditor公式编辑器是作为CAI积件工具的一个子模块而提出的,其主要功能是编辑物理、数学公式及化学式子.该文主要
1中央控制系统简介1)分类:分为卫星站系统及解码器系统两种。卫星站系统由一台电脑、若干卫星站(又叫田间控制器,分控箱),若干传感器组成。适用于开放式公园、绿地等。解码器
计算机支持的协同工作(CSCW)一方面要研究协同工作的本质和特征,另一方面要研究各种协作支持技术,而对这两方面进行研究的最后的最终目的是为了构造完善的CSCW系统.由于CSCW
期刊
该文结合863/CIMS主题目标产品开发项目"离散工业CIMS相关产品集成系统的开发及其应用示范"(863-571-9704),对CORBA环境下基于STEP的产品数据交换的方法和述集成工具的实现技
该文论述了电子目录的发展和现状,并分析了现有电子目录及相关软件存在的不足.在此基础上,该文主要完成了以下工作:(1)分析了电子目录模板的结构,提出了电子目录 模板标准化