基于唐诗语料词的提取与统计分析的研究

来源 :长春工业大学 | 被引量 : 0次 | 上传用户:Red_Cell
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中国的诗歌艺术源远流长,诗歌作为一种最接近口语的大众化文学形式,在汉语文化的成长演变与传播中占有极其重要的地位,唐代的诗歌更是集古代诗歌的优势于一身,并且把诗歌艺术发扬光大,因此对唐诗的研究历来是汉学研究的热点之一。不过,诗歌的传统研究往往依靠研究者的自身良好的文化修养,凭感悟直接把握作品的内涵,这种研究方法对于诠释作品的美学及人文意义有很强的优势,但在对作品的语言全貌进行横向和纵向的分析时,就会显得捉襟见肘。在步入信息化社会的今天,我们发现,对古籍的研究手段还大多数采用手工方式。这种方式效率低、费人工,因此我们在古籍研究中引入计算机,为古籍研究者提供辅助工具已是大势所趋。语料库在语言学研究领域有着广泛的应用,它是语言研究现代化的重要基础,利用语料库从事语言研究,可以克服传统语言学研究中的许多问题。 基于以上因素,将计算机知识应用到诗歌的研究工作中,是计算机语言学的一片新天地。运用在现代汉语信息处理研究中建立的计算机语言学理论,方法和技术,可以对古代汉语的语言现象进行深层次的研究。由于语料库为文学语言研究提供了量化语料和语言特征的统计数据,所以可以避免因研究人员的主观直觉差异而导致定性描述的偏颇。对文学语言的文体特征所做的定量统计和分析,具备了统计学的计量依据,在此基础上对文学语言进行定性描述也就更加全面、客观、科学,更加具有说服力。 本文主要是采用了基于语料库统计的方法,统计作为一种工具可以用来帮助发现语言事例中隐藏的许多语言现象,统计手段的引入,使人们能够有一个相对客观的标准来判定唐诗中“词”的概念,词汇语义之间的相互关系等。基于唐诗三百首的语料库,利用信息论与概率论中的互信息这个统计方法对唐诗语料进行统计,但是在实际应用中发现仅仅利用互信息这个统计手段,是不能满足要求的,于是提出了结合力度、共现度等概念,对诗中的词进行提取,再利用统计的方法,对诗歌中的词汇进行分析,并且建立一个基于频度、相对共现度以及结合力度的三维的词的统计发现的模型。该模型针对汉语中多字词被大量使用的特点对传统的互信息模型进行了改进,该模型要求一个字串只有在三方面都达到标准才能判定为词,提高了统计自动提取词的查准率和查全率。本文还对唐诗语料词的划分与句尾三字组的消除歧义工作也进行了详细的说明。通过采用统计的方法,对唐诗的同现词和对仗词进行了分析,进一步更加深入的研究唐诗语料。
其他文献
医学图像信息配准与融合是当代信息科学、计算机技术与医学影像科学相交叉的一个研究课题,它是医学图像处理学科的一个新的研究热点。应用医学图像信息配准与融合技术可以把不
消防的重点在于预防。高层大型建筑物由于结构复杂,人员疏散逃生困难,是火灾预防的重点之一。我国消防系统的档案多以文档形式为主,部分信息附以二维平面图来表现。而用三维
随着互联网规模的增长,拥塞已经成为一个十分重要的问题。近年来,主动队列管理算法已成为端到端拥塞控制的一个研究热点。它通过评估网络状态、预测拥塞的出现,对分组进行有
学位
形式化方法借助数学方法为系统的说明、开发和验证提供了一个框架,有利于发现目标软件系统需求中的不一致性、不完整性等问题。 统一建模语言UML是当前软件工程领域的研究
随着应用复杂度的增加,软件程序对存储空间的需求也逐步增大。由于星载处理机的存储器容量在物理上的增加往往受到机器自身、系统成本及功耗等的制约,因此将程序代码进行压缩存
海天背景红外图像舰船目标检测能在海战中提前发现敌军舰船,为火控系统提供目标方位指示。除此之外,海天背景红外图像舰船目标检测在捕鱼船监控,海上搜救等民事领域里也有着广泛
互联网时代,信息数字化和传输网络化成为必然趋势,这给信息传递和利用带来便利的同时,也带来了始料未及的风险。由于互联网传输协议的设计问题,互联网信道并不安全。如何保障信息
当今的社会是信息的社会,人们对信息的需求就像对空气和水的需求一样须臾不能离开。据统计,在人们所使用的信息中有80%以上的信息与“位置”有关,且不谈像野外勘探、开山筑路、部
计算机的发展使人们能够搜集和存储海量的信息。由于信息量的不断增大,如何利用计算机自动地精选出所需的资料,是人们关注的焦点。但是目前在文本检索过程中,广泛使用的关键词匹