古今汉语平行语料库自动分词及标注工具的研究

来源 :北京师范大学 | 被引量 : 0次 | 上传用户:jundy123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文词法分析是中文信息处理的重要基础,汉语是没有自然分割的连续文本,古代汉语更是没有任何边界标志,我们现在所看到的文言文中的标点符号,都是后人为了方便人们阅读而添加的。为了帮助人们更加方便、深入的学习和研究古代汉语,必须首先对连续的词语进行处理即分词标注。本文基于统计自然语言处理的方法,重点研究了古今汉语分词标注模型,在已有的古今汉语平行语料库学习平台中添加了词法分析模块,为系统中的翻译模块奠定了基础,并提供了非常珍贵的资源。   本文将从训练语料的加工、分词标注工具的模型、古今汉语学习平台词法分析模块三个方面分别阐述本文所做的工作。   训练语料的加工:训练语料的加工过程严格,语料的加工经过了分词、标注、机器校对、人员校对四个步骤,这四个步骤的实施保证了训练语料的正确性。首先,于加工语料之前制定了加工规范和标注集,其次,对语料加工人员进行了严格的遴选,择定北京师范大学文学院古汉语方向的研究生进行语料加工,再次,利用程序对训练语料的格式进行了校对,最后,再次进行了人工校对。训练语料的完成为后续的分词标注提供了宝贵的资源。   分词标注模型:分词标注模型是整篇文章的核心部分,该部分解决了分词标注算法、分词词典结构、古汉语词典建立等几个问题。这部分主要运用了perl语言对二元语法模型进行了训练,提取词典词条信息,利用全切分算法和马尔可夫标注模型研究分词标注模型。尤其在古汉语分词方面,将虚词的位置信息作用到了马尔可夫模型标注器上,提高了处理结果的准确性。   古今汉语平行语料库词法分析:该模块是本论文的研究成果的应用,设计并实现了一个实用、开放、易于扩展的古今汉语分词、学习、应用的平台。   依据统计自然语言处理方法,本文探讨了基于统计的古今汉语分词标注,从资源建设到核心理论研究,再到应用实现的一整套系统化过程中,遇到的问题及解决方案,并不断通过实验来加以改进,最终的实验结果是令人满意的。
其他文献
随着政务信息化的快速发展,无纸化网络办公已经逐渐被我国各级政府、事业单位广泛的普及和推广。规范、安全、可信的电子公文体系已经逐步取代了繁琐、低效的传统纸质公文体系
随着计算机技术的发展,人们开始探索将各种新技术应用于教育教学领域,同时也促进了CAI理论的发展。其中,课程软件概念的提出将CAI的功能从辅助教学扩展为教学与自学相结合的辅助
数字化半色调是一种把连续调图像转化为半色调图像的技术,广泛地应用于印刷和照排系统中。误差扩散算法是实现上述转化的最主要算法。随着印刷等技术的发展,对数字化半色调的速
演化性是软件的本质属性。为适应Internet开放环境和用户需求的变化,系统需要能够动态调整自身。系统的动态演化能力作为衡量软件自适应性和灵活性的重要指标,已成为软件工程
不同于传统基因表达检测技术,高通量微阵列技术可以同时测量成千上万基因表达水平,为功能基因组学基因调控网路研究提供强大的技术支撑。关联分析方法用于分析微阵列数据集基
视频监控中的异常行为检测已经受到广泛关注,特别是在公共安全领域。随着视频资料膨胀式的发展,人为监控判断资料的异常已经不能够满足安全保障的需要。本文致力于解决视频监控
需求工程是软件开发中的一个重要阶段。需求工程分为需求获取、需求分析、需求规约、需求确认和需求管理五个基本活动。其中,需求获取是整个需求工程的开端,其输出制品的质量会
二十世纪九十年代以来,互联网逐渐深入到人们日常生活的各个方面,成为不可或缺的一部分。互联网流量识别是互联网流量测量领域的研究热点之一,在提供网络信息、保证服务质量等方
随着信息技术的高速发展和现代战争的需要,多传感器信息融合作为一门新兴交叉学科得到广泛关注。基于信息融合技术的目标识别已成为国内外研究的热点。如何快速、准确地对目
为了追求更高的精度,当前神经网络的研究朝着模型更复杂、训练数据规模更大的方向发展,这导致模型的训练部署更困难、训练时间急剧增长。怎样将大型神经网络模型在多GPU集群环