以《汉书》为例的中古汉语自动分词

被引量 : 18次 | 上传用户：mabin85281528

【摘要】

：

中文分词是自然语言处理一项重要的基础性任务。一直以来,中文信息处理的对象主要是现代汉语,在古代汉语的处理方面还远远不足。作为自然语言处理的一个分支,古代汉语信息处

【作者】

：

王嘉灵

【发表日期】

：

2014年01期

【关键词】

：

《汉书》自动分词词表注疏 CRF 词汇

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

中文分词是自然语言处理一项重要的基础性任务。一直以来,中文信息处理的对象主要是现代汉语,在古代汉语的处理方面还远远不足。作为自然语言处理的一个分支,古代汉语信息处理的核心任务是词处理,只有在实现古代汉语分词的基础上才能够真正为古典文献学提供数字化的技术手段。本文结合古代汉语信息处理的特点,以中古史传文献《汉书》为例,从词汇获取的层面和字标注的层面探讨古代汉语分词的多种方法。我们主要进行了以下几个方面的工作：1.制定针对《汉书》词语的切分细则,归纳分词过程中疑难字串的类别并探讨处理办法。我们参照已有的面向现代汉语的分词规范,结合《汉书》中的用词实例,依据不同词类制定了信息处理用的《汉书》分词规范,并对于同一词类间的不同分词情况进行分析说明。不同于以往分词规范的是,我们通过对比查找以及类推的方法,搜集切分困难和切分不一致的疑难字串,对这一类字串展开专门的讨论,并将这些字串按照构成结构进行分类。以其中一类为例,给出了处理疑难字串分词的统计依据和具体操作办法。2.通过多种渠道获取分词词表,收集了三大类的词表。一是地名表、人名表、以及先秦词表这类可以直接获取的词表；二是通过双字互信息阈值筛选所得词表,通过对文本双字互信息值的计算获取,经反复实验,得出最适合《汉书》分词的互信息阈值约为7.5；三是注疏词表获取,主要利用注疏文献《汉书补注》在实现注疏对齐的基础上,根据基于字符串匹配的方法从注疏文献中获取词汇信息,生成注疏词表。同以往的注疏词表获取不同的是,我们对初步获得的词条添加后处理过程,利用第一类词表中的已登录词切分过长字串,提高词表精度,更为简单快捷。最后,我们添加了对三类词表的分词效果比较,发现就单个词表分词而言,注疏词表效果最为显著,F值达到83.3%。对于多个词表综合的分词,实验结果表明,最优的词表组合是专有名词词表(人名表和地名表)和注疏词表,其分词的F值超过了85%,比baseline提高了近8个百分点。因此,我们认为,基于词表的分词,注疏词表和专名词表是最优的分词词表组合。3.选取不同语言特征,用条件随机场模型进行基于字标注的分词。在《汉书》的实际分词中,选取合适的特征模板,并添加一些相关的语言特征用以辅助分词,例如字符分类,声、韵等,并首次尝试加入上古音、上古韵这两大特征并与中古音、中古韵的分词效果进行对比。分组实验结果表明以1W+2(上下文窗口长度为1,2个字符同现的模板)为基础的分词模板效果普遍较好,增加了字符分类(C1)和上古音(C5)的1W+2+C1’5’模板在特征二元同现(’表示特征的二元同现)的情况下分词效果最优,F值可以达到94.4%。4.在实现汉书分词的基础上,对于《汉书》的词汇概貌从词长、高频词、成语、特征词等多个方面做了简要的描述和统计分析。统计结果表明,《汉书》中单音节词占比仅为24.24%,但在使用频率远高于多音节词,用例占比约为80.29%,说明《汉书》用词仍以单音节词为主。通过比较《汉书》与25部先秦文献以及《人民日报》1998年1月语料的平均词长,也印证了汉语从单音节词向多音节词的发展规律。《汉书》高频词的统计结果证明了文中关于《汉书》高频字表即高频单字词表的推测;四字成语的统计为考察部分成语来源提供了参考依据；“匈奴”、“汉王”、“单于”等时代特征词的成功抽取也正确地反映了《汉书》的时代面貌。

其他文献

电视剧化妆造型与流行的互动

电视剧化妆造型一直与流行保持着互动。一方面,电视剧作为大众传媒传播时尚流行文化,另一方面,流行文化也影响着电视剧化妆。电视剧化妆造型常常把握住流行的元素来表现不同

期刊

电视剧化妆造型流行文化

花鼓戏润腔行腔与民族唱法

<正>民族唱法中的"花鼓戏现象"众说纷纭,议论了许久了,但究竟其玄机何在?乃无定稿论。有人说:什么"花鼓戏现象"?偶然性耳!是的,从个例看的确是由很大偶然性,但总是出现某一种

期刊

民族唱法湖南花鼓戏

中国增权理论研究述评

增权理论近年成为中国社会工作研究领域的一个热点,文章从考察增权理论核心概念和价值基础出发,论述弱势群体研究中增权理论的运用,并对2002年至2008年间国内社会工作分支学

期刊

增权弱势群体社会工作理论本土化

长江中下游红土剖面中粘土矿物的风化淋滤与过渡相结构研究

红土广泛分布于中国的亚热带长江中下游地区,分布北界为25-31N°,在丘陵、河流阶地、冲积平原以及部分山麓地带尤为发育,面积可达200×104km2。随着全球变化研究的兴起,红土

学位

长江中下游红土粘土矿物风化过渡相结构

色彩在广告传播中的情感效应

不同的色彩对人的心理会造成不同的情感效应,广告传播中色彩成为构成广告设计的重要元素,对提升广告宣传价值具有重要作用,为此,广告设计者必须认识色彩运用对广告传播的重要

期刊

色彩广告传播情感效应

综艺节目主持群模式的多角度思考——以《天天向上》主持群为例

当今综艺娱乐节目中,由多名主持人共同主持节目渐渐成为一种趋势,主持群模式随之产生。本文以《天天向上》主持群为例,从综艺节目主持群模式的优势、特点以及对主持群的素质

期刊

综艺娱乐节目主持群《天天向上》

我国公众参与地方立法的缺陷及对策

自《中华人民共和国立法法》颁布以后,国家在立法过程中开始注重吸收社会公众的意见与建议。尤其在地方立法工作中,许多省市针对本地区实际,纷纷出台了相关法规规定本地方立

期刊

公众参与地方立法程序设计

桌面云在医院的应用探索

随着医院信息化的深入,临床科室对于信息系统的依赖程度越来越高,传统的医疗信息化应用模式中,PC、系统、应用之间的关系属于"紧耦合"关系,处理PC故障往往需要占用大量时间,

期刊

云计算桌面云医院信息系统

论城乡统筹与区域统筹的关系

文章首先讨论了统筹城乡与统筹区域在时间上的继起性,然后从理论基础、实践意义以及微观基础等方面论证了统筹城乡与统筹区域的内在一致性,然后讨论了通过推进区域统筹来促进

期刊

城乡统筹区域统筹内在一致性

布洛赫希望哲学视野下的“中国梦”解读

共同“指向一种更美好生活”将“中国梦”与布洛赫的希望哲学关联起来。“中国梦”的精神实质就是希望，有主客观两个方面的规定性；“中国梦”的重大意义在于唤醒人内在的希望本

期刊

中国梦布洛赫希望

以《汉书》为例的中古汉语自动分词

与本文相关的学术论文