论文部分内容阅读
《诗经》的注疏文献颇多,“十三经”各注释本中以阮刻本《十三经注疏》最为完善,其冠列经史子集的经部之首,故本文研究选用阮刻本《十三经注疏》中的《毛诗正义》作为《诗经》注疏文献的研究对象。本文以《毛诗正义》《毛诗引得》等作为资源,借鉴已有的《孟子》《论语》《左传》等先秦典籍的研究,实现从更深的层面对《诗经》进行加工和处理,对《诗经》进行较深层次的加工和处理,尝试探索基于引得领域词表的《诗经》自动分词,采用正则表达式匹配和相似度计算等方法探索《诗经》与其注疏文献《毛诗正义》的句子对齐研究得到了较好的对齐效果。本文主要是从以下三方面进行句子对齐研究:首先,对《毛诗正义》的行文结构和训诂语言进行分析。总结归纳《毛诗正义》的篇章划分特征,为后续实现篇和章的对齐提供依据。《毛诗正义》中不同的训释对象和训释内容,一般会使用不同的具体术语,通过归纳总结训诂术语在术语、格式、内容、方法和体例这五个方面的特征和规律,找出训诂的规律,利用正则表达式提炼加工,构建训诂具体术语模式库,用以辅助探索本文的句子对齐。其次,采用条件随机场的机器学习方法探究了《诗经》的自动分词。《诗经》自动分词是基于《诗经》手工分词的语料,采用《广韵》字表和统计分析相结合的方法,得到23组融合不同特征知识的特征模板,训练产生机器学习分词模型。并对每个分词模型进行性能测试,分析发现词性特征对《诗经》分词效果的影响最大,且分词模型的调和平均值F值最高可达到97.42%。再次,采用正则表达式匹配和相似度计算相结合的方法进行《诗经》与《毛诗正义》的句子对齐研究。正则表达式匹配实验是利用训诂术语模式库,采用python对实验语料进行模式库的多次匹配,逐步进行效果测试,可获得较好的匹配效果。Gensim是一种自然语言处理库,可自动从文本中提取语义信息,本文基于gensim结合词频权重向量(TF-IDF),构建LSI主题模型进行相似度计算,结合正则表达式匹配结果,共同探索《诗经》与《毛诗正义》的句子对齐研究,并对对齐实验结果进行效果测评。利用训诂术语正则匹配进行句子对齐,准确率P最高可到86.92%,调和平均值F可达84.61%,该方法结合了文本结构特点及训诂术语语言特征,实验效果较佳。采用gensim相似度计算的方法结合了语义特征,实验得到的句子匹配结果也较理想。经-注-疏匹配的准确率可达到89.92%,经-疏匹配的准确率有86.14%,调和平均值F最高可达85.6%。由此可看出,训话术语正则匹配和gensim相似度匹配的方法均可用于探索本文的句子对齐,且对齐实验效果较好。此外上述两种方法是从不同的角度探究《诗经》与《毛诗正义》的句子,后续研究可结合使用。本文的创新点有两个:一是对《毛诗正义》的行文结构和训诂语言特点进行了归纳总结,构建了较为完整的行文结构体系和训诂术语模式库,可计算机化便于后人在此基础上进行相关研究。第二是探索得到一种从多角度采用多种词表,构建机器学习模型实现《诗经》自动分词的方法,并构建了《诗经》分词语料库。进而探索了一种基于训诂术语模式库的正则表达式匹配和相似度计算相结合的方法实现了《诗经》与《毛诗正义》的句子对齐,并取得了较好的对齐效果。但本文仍有不足之处。首先训诂术语模式库,虽尽可能归纳全,但仍可扩大《诗经》的注疏文献范围实现进一步完善。其次,句子对齐实验中未对《毛诗正义》“疏”部分中各专家言论进行细致划分,后续研究可分析归纳各家言论所长。