全宋词语料库建设及其风格与情感分析的计算方法研究

被引量 : 0次 | 上传用户:ranoelive
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算诗学是计算机自然语言处理技术的一个全新应用领域,其主要内容是建立诗词语料库,采用现代自然语言处理中的技术来挖掘语料库中所蕴含的信息,以此来辅助文学工作者们对诗词进行研究。本文以计算机辅助研究宋词为目的,建立全宋词语料库,并在此基础上开展了对宋词风格和情感分析的计算方法的初步研究。主要内容如下:由于机器学习和古典文学数字化的需要,本文提出的方法和实验研究都基于语料库的数据驱动进行。语料库建设工作主要包括:基于统计抽词建立词表,结合格律特点对宋词进行切分,对宋词进行词性等方面的标注。同时,本文还建立了相关宋词知识库。该方面工作是整个课题的研究基础,具有十分重要的意义,主要内容集中在第二章到第五章。针对高度抽象的艺术概念“风格”的辨析,本文将该问题转化为模式识别中的文本分类问题。在前面工作的基础上,分别建立了基于“字”特征和基于“词”特征的分类模型,并且通过遗传算法训练权值,建立两个模型的线型组合模型。在实验中,本文在KNN下比较了三个模型的优劣。这部分内容集中在第六章。宋词中包含着诗词作者丰富的感情表达。针对该方面的研究,本文尝试将情感计算引入到宋词的机器理解中。文中采用了多重松弛迭代计算方法,对宋词词语的情感标注问题进行了研究,通过语境的利用,构建了一个实验性系统并取得了较为准确的词语情感标注,为以后的词句情感意义的理解提供了基础。该部分内容集中在第七章。在文章的最后,对全文的研究工作进行了总结,并规划了今后进一步的研究方向。
其他文献
本文主要分析我国各区域的资源配置能力,及其对区域经济增长的影响。在第二章中,首先研究了区域资源配置能力和自然资源禀赋对经济增长的影响:发现资源配置能力为决定地区经
数字技术和网络技术日益精进、飞速发展的今天,图书馆在信息资源的采集、整理、加工、提供等功能上,数字化是其必然趋势。数字图书馆代表了图书馆的发展方向,它是一个集技术
纵向价格限制对竞争的限制作用和促进作用决定了其理论的争议性。在国际上,美国和欧盟对纵向价格限制的规制也呈现出完全不同的规制模式。本文在对我国的立法、司法现状进行
传统供应链中的库存管理是各自为政的。其各个环节,制造商、供应商、分销商都有自己的库存控制策略。由于各自的策略不同,不可避免地产生需求的扭曲现象,即所谓的需求放大现
目的:医疗器械标准物质是医疗器械质量分析中使用的实物对照,也是医疗器械检验不可缺少的物质。为保证国家医疗器械标准物质的质量,规范研制工作,中国食品药品检定研究院制定
洞穴碳酸盐是洞穴滴水沉淀的结果,其有机质的荧光性质响应于外界气候与生态环境的高频率、周期性变化,是高分辨率反映气候-环境变化的有效手段。本文详细分析了洞穴碳酸盐荧
从道光年间开始,国家多难,园林更替频繁,一代名园林毁于一旦,一代新园又在崛起。西方文化进入中国,与传统文化产生强烈冲突。在西方园林文化影响下,诞生了近代公园,但公园真
国家公园是经实践检验的、世界各国和地区普遍采用的一种管理自然文化遗产的优秀制度。中国是世界上自然文化遗产最为丰富、最具特色的国家之一。借鉴成熟的国家公园制度,结
<正>通过采用双重正压静脉留置针在患儿中的应用,改进了静脉留置针的穿刺方法、固定方法、封管方法。应用改进的双重正压静脉留置针操作方法可减少静脉穿刺的次数,保护静脉血
炎性乳腺癌是一种具有高侵袭性的特殊类型乳腺癌,疾病进展迅速,预后较差。其诊断主要依据特征性的临床表现及病理确诊。目前,整合新辅助化疗、手术、放疗、内分泌治疗以及靶