面向楹联文本的知识挖掘研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:kuangtuzhm11
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
楹联是中国传统文化的瑰宝,研究楹联对促进传统文化的传播与发展有着重大的价值,而随着信息技术迅速发展,将计算机技术应用于传统文化领域也成为了研究热点。由于以往关于楹联文本的研究多从鉴赏、基础理论等角度出发,而立足于大量楹联文本,采用计算机技术挖掘楹联文本中蕴含的知识的研究较少,计算机技术的介入,可以克服楹联文本研究需要深厚的文学底蕴和专业知识的局限性,降低研究门槛,促进楹联文化在当代的研究与传播。在此背景下,本文基于从网站上收集和爬取的789858条楹联(41208条具有标签关键词),提出楹联文本知识挖掘研究模型(CTKDDRM),主要由3个研究深度由浅至深、研究难度由低至高的模块组成:(1)从字词角度考虑的楹联文本情绪分析;(2)从字词组合的语义表达,即文本内容表达主题角度考虑的楹联主题自动分类研究;(3)既考虑上下联字词对仗、内容相连,还考虑句法、格式、韵律等问题的楹联自动生成研究。在楹联文本情绪分析中,本文主要采用基于扩展情绪词典技术的分析方法,为更全更准确的构建楹联领域情绪词典,提出了动态扩充循环标注分类法(DECTC)对语料候选情绪词进行标注,最终得到包含13603个词的楹联领域情绪词典,然后基于该词典,从楹联全联情绪倾向,和楹联上下联情绪转折两个角度,对楹联进行粗粒度和细粒度的情绪分析,发现楹联表达的情绪是复杂的,虽然大部分楹联表达正向情感,但表达哀伤、憎恶情绪的数量也较多,此外在上下联情绪转折中,多为上联表达负向情感,下联表达正向情感,正如常言的“欲扬先抑”。在楹联主题自动分类研究中,基于标签关键词聚类得到的分类体系,本文选取了5种主题联类进行自动分类研究,首先针对实际情况中联类数量不平衡的问题,设置了不/欠/过采样3种数据处理方式,得到3组数据集,其中过采样采用本文提出的基于EDA修改的EDA-Word2vec文本增强方法,然后构建由3层结构组成的分类改进模型:文本表示层(BERT、ERNIE、BERT-wwm、Ro BERTa)、特征表示层(FC、GRU、CNN)和分类输出层(Softmax),最终构建了12种分类模型,并以Char2vec作为文本表示的Text CNN作为Baseline模型,在3组数据集上进行实验,比较分析总体准确率和各联类详细分类评价指标可得,基于经过采样处理后的数据集实验可以缩小数据量大与数据量小的联类分类效果之间的鸿沟,采用ERNIE-CNN模型在经过EDA-Word2vec方法过采样后的楹联数据集上,可以得到最佳的分类效果,为95.75%。在楹联自动生成研究中,为了更智能的生成楹联,本文采用深度学习方法实现楹联自动生成,提出Char2vec-Seq2Seq_Attention、Char2vec-Transformer、BERT-Transformer模型,Char2vec-Transformer在BLEU、ROUGE-1、ROUGE-2、ROUGE-L评价指标上取得相对较佳的结果。通过分析模型自动生成楹联示例,发现模型生成的下联能够满足与上联字数相同、语意节奏一致等基本要求,且对仗较为工整。综上,本文采用计算机技术对楹联文本中蕴含的知识进行了研究,探索计算机技术与传统文化的结合方式,减少人工在相关问题研究中的介入,降低时间和人力成本,并为类似研究提供新的视角。
其他文献
【研究背景】创伤性脑损伤(Traumatic brain injury,TBI)作为最常见的神经外科疾病之一,其致死率、致残率高,是全世界范围内构成重大卫生和社会经济问题的重要因素,也是目前国际研究的热点和焦点。当TBI严重到一定程度时,就会使血脑屏障(Blood–brain barrier,BBB)受到损伤,引起一系列反应。在临床上,TBI可以表现为不同的症状,其中包括认知功能障碍、意识障碍、运
学位
内设机构改革后,检察机关内部监督格局发生重大调整,基层检务督察工作在实践中不断探索,积极适应新形势,虽有成效,但定位不清、力量薄弱、主责主业存在短板、线索渠道不畅等问题凸显。针对问题,基层检务督察要切实转变工作理念,通过构建“多位一体”监督格局、提升检务督察工作“一体化”水平、突出主责主业、强化工作保障的工作体系等实践措施,让检务督察工作尽快适应高质量发展下强化检察权运行监督的需要。
期刊
随着社会生产力水平的提升和信息化浪潮的席卷而来,我国信息产业的规模逐渐壮大,并成为了促进我国国民经济快速稳定发展的重要引擎。为推动信息产业稳定、繁荣发展,我国持续出台了大量产业政策和指导办法。但是产业政策的有效制定和实施都离不开科学的政策评估,政策评估不仅可以对政策本身的价值做出科学判断,还可以测试政策制定和实施的实际效果。以往研究中,学者多集中于信息产业政策的内容创新、价值取向与推广实施,对信息
学位
<正>主要内容:国家监察体制改革后,检察机关纪检监察部门被转隶到同级监察委员会,基层检察院政治部便承担起机关内部日常检查监督的职能。对于新时代、新条件、新任务下如何更好履行检务督察职能,防止检察人员违法违纪,全面构筑从源头上健全惩治和预防腐败体系,助推业务工作同发展成为基层检察院当前一个急待解决的问题。本文将从开展检务督察必要性及其专业化队伍建设方面,以紫云县院为样本,试图对基层院检务督察程序和措
会议
翻译的基本任务之一是通过双语的转换进行思想传递。好的译文不仅要充分传达原文的思想和概念,更要行文流畅、具有较好的可读性,这是对一切笔译作品的基本要求,也是衡量译文质量的基本标准之一。本论文翻译素材节选自布劳克·巴斯蒂安所著的《幸福的另一面》(The Other Side of Happiness)。笔者从释意论的角度出发,以翻译过程中遇到的问题为例,分析研究如何提高译文的可读性。释意派认为,翻译实
学位
本文立足于出版行业的发展现状,以及出版学科的理论背景,引入市场营销学中关于分销渠道的理论研究,综合运用文献研究法、案例分析法、数据分析法、实地调研法和访谈法,对“新经典”纸质书分销渠道的运作系统、新经典在分销渠道管理中面对的挑战,以及相应的应对策略与方法进行深入分析,并结合新经典的具体实践对出版行业的纸质书分销渠道管理提出优化建议。笔者认为,当前新经典的纸质书分销渠道体系有以下特色:深耕自营网店渠
学位
中国台湾的旅行作家三毛以独特的散文作品成名,其读者遍布全世界的华人地区。她形成了独特的写作风格,作品的语言通俗浅显,朴实无华,且富有感情表现。笔者决定选择她的四篇后期散文作为本文的翻译材料。笔者翻译过程当中遇到的问题为修辞格的翻译。三毛善于采用修辞手法增强作品的表达效果,作品当中的修辞格的数量很多。众所周知,修辞手法是每一种语言当中都存在的、增强感情表达效果的一系列文体元素,这些元素所包含的意义层
学位
随着信息技术的进步,社交网络应用产生并迅速发展,微博作为全媒体内容形式的社交平台,因信息传播速度快、交互性强、功能多样化等特点受到越来越多人的喜爱。用户越来越愿意在微博记录并分享个人生活,与此同时,隐私泄露的风险也随之增加。近年来,随着隐私安全知识的科普和宣传,人们的信息素养不断提升,隐私安全逐渐引起人们的关注,但仍有许多问题亟需解决。部分用户尽管已经具有隐私保护的意识,但强烈的应用使用需求、隐私
学位
随着科学研究的不断深入扩展和计算机、网络技术的发展,学术论文的产出速度与数量都日趋增长,各种文献管理软件、数据库出现并完善,文献的统计与分析方式发生了改变,然而对于学术成果的评价标准一直存在争议。传统的评价方法存在着诸多的缺陷和局限性,如何解决这些问题,弥补缺陷,并结合当前社会环境和经济环境进行评价指标和方法的创新,更为科学、合理、全面地衡量论文价值,是亟需讨论与解决的问题。在此背景下,从多维度出
学位
学术评价是科研活动的重要内容之一,是科研制度与规范的重要组成部分,是实行学术管理与批评的基础和依据,对科研活动的发展起着促进与保障作用。近年来,国内外的科研水平呈现出飞速发展的趋势,研究人员及其产出的科研成果急剧增加。随着大量学术成果不断涌现,科研成果质量参差不齐。从众多的科研成果中挖掘出真正具有高影响力的学术成果已成为当前的研究热点。学术论文作为科研成果的具体表现形式之一,具有很高的研究价值。早
学位