《诗经》与其注疏文献的句子对齐研究

来源 :南京农业大学 | 被引量 : 0次 | 上传用户:GSo0osjo0o
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
《诗经》的注疏文献颇多,“十三经”各注释本中以阮刻本《十三经注疏》最为完善,其冠列经史子集的经部之首,故本文研究选用阮刻本《十三经注疏》中的《毛诗正义》作为《诗经》注疏文献的研究对象。本文以《毛诗正义》《毛诗引得》等作为资源,借鉴已有的《孟子》《论语》《左传》等先秦典籍的研究,实现从更深的层面对《诗经》进行加工和处理,对《诗经》进行较深层次的加工和处理,尝试探索基于引得领域词表的《诗经》自动分词,采用正则表达式匹配和相似度计算等方法探索《诗经》与其注疏文献《毛诗正义》的句子对齐研究得到了较好的对齐效果。本文主要是从以下三方面进行句子对齐研究:首先,对《毛诗正义》的行文结构和训诂语言进行分析。总结归纳《毛诗正义》的篇章划分特征,为后续实现篇和章的对齐提供依据。《毛诗正义》中不同的训释对象和训释内容,一般会使用不同的具体术语,通过归纳总结训诂术语在术语、格式、内容、方法和体例这五个方面的特征和规律,找出训诂的规律,利用正则表达式提炼加工,构建训诂具体术语模式库,用以辅助探索本文的句子对齐。其次,采用条件随机场的机器学习方法探究了《诗经》的自动分词。《诗经》自动分词是基于《诗经》手工分词的语料,采用《广韵》字表和统计分析相结合的方法,得到23组融合不同特征知识的特征模板,训练产生机器学习分词模型。并对每个分词模型进行性能测试,分析发现词性特征对《诗经》分词效果的影响最大,且分词模型的调和平均值F值最高可达到97.42%。再次,采用正则表达式匹配和相似度计算相结合的方法进行《诗经》与《毛诗正义》的句子对齐研究。正则表达式匹配实验是利用训诂术语模式库,采用python对实验语料进行模式库的多次匹配,逐步进行效果测试,可获得较好的匹配效果。Gensim是一种自然语言处理库,可自动从文本中提取语义信息,本文基于gensim结合词频权重向量(TF-IDF),构建LSI主题模型进行相似度计算,结合正则表达式匹配结果,共同探索《诗经》与《毛诗正义》的句子对齐研究,并对对齐实验结果进行效果测评。利用训诂术语正则匹配进行句子对齐,准确率P最高可到86.92%,调和平均值F可达84.61%,该方法结合了文本结构特点及训诂术语语言特征,实验效果较佳。采用gensim相似度计算的方法结合了语义特征,实验得到的句子匹配结果也较理想。经-注-疏匹配的准确率可达到89.92%,经-疏匹配的准确率有86.14%,调和平均值F最高可达85.6%。由此可看出,训话术语正则匹配和gensim相似度匹配的方法均可用于探索本文的句子对齐,且对齐实验效果较好。此外上述两种方法是从不同的角度探究《诗经》与《毛诗正义》的句子,后续研究可结合使用。本文的创新点有两个:一是对《毛诗正义》的行文结构和训诂语言特点进行了归纳总结,构建了较为完整的行文结构体系和训诂术语模式库,可计算机化便于后人在此基础上进行相关研究。第二是探索得到一种从多角度采用多种词表,构建机器学习模型实现《诗经》自动分词的方法,并构建了《诗经》分词语料库。进而探索了一种基于训诂术语模式库的正则表达式匹配和相似度计算相结合的方法实现了《诗经》与《毛诗正义》的句子对齐,并取得了较好的对齐效果。但本文仍有不足之处。首先训诂术语模式库,虽尽可能归纳全,但仍可扩大《诗经》的注疏文献范围实现进一步完善。其次,句子对齐实验中未对《毛诗正义》“疏”部分中各专家言论进行细致划分,后续研究可分析归纳各家言论所长。
其他文献
随着网络书店的普及,我国的实体书店尤其是民营式实体书店遭受到了前所未有的打击,不少大型书店相继倒闭。而在残酷的竞争环境下,开设一家特色书店必须要考虑各方面因素。因
深穿透复合解堵技术是把射孔、高能气体压裂及酸化三种工艺有机地结合在一起的综合改造油气层的新技术,该技术应用于水平井存在一定的难度。在技术原理研究的基础上,对安27—25
社会工作服务项目具有明确的目标、成本约束性、项目的确定性和特定的委托人等特征,开展社会工作服务项目对于福利机构重要意义在于,由养人到购买项目的转变、从日常工作到项
针对属性权重和属性值完全未知情况下的多属性决策问题,提出一种不完全信息下多属性决策方法,通过设立属性排序值并引入直觉模糊集来表示虚拟属性值及对虚拟属性值的认可度,
给出巷道支护中测力锚杆的力学模型,指出测力锚杆实际应用中主要承受拉力、扭矩作用。
本文分析了信息系统监理的重点和难点,探讨了通过监理阶段、监理内容和监理对象三大维度构建三维模型,使监理的六个阶段、八大监理内容与信息系统的各模块之间形成三位一体化
新型职业农民是以市场为主体、具有高度稳定性的且把终身务为为职业的一新一代农民,新型农民虽然符合传统农民的一般条件,但新型职业农民更具有社会责任感和现代观念,具有一定的
改革开放四十多年来,我国建筑业取得了显著成就。随着各地建筑规模的不断壮大,建筑工程质量受到越来越多人的重视。近年来,全国各地工程质量问题的不断暴露引起了社会各界的
数学多元表征,即从不同的角度和方式表征数学知识和数学问题。近年来,数学多元表征是数学教育中的热门话题,其中研究问题多元表征对问题解决的影响的文章非常多,其研究主要是
多金属氧酸盐(简称多酸,POM)由于其特殊的结构和物理化学性质,使得其在生物医学、储能材料、超分子化学、催化领域有重要的应用。POM的结构中含有不同价态的原子组合,能够进