基于语料库的公文缩略语知识挖掘研究

被引量 : 0次 | 上传用户:yangyupengmei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
缩略语的自动识别是公文自动理解的重点。当今时代信息化高度发达,大数据、物联网、云计算日益扩大影响范围并逐渐进入人们的日常生活,社会管理智能化水平不断提高。社会管理智能化要求强化信息资源开发利用和整合共享,将计算机网络等现代信息化技术运用于社会管理各方面、各环节,促进智能化技术在公共行政、社会管理与服务的广泛应用,大幅提升社会管理的效率与效益。面对现代社会生活中地位重要、种类繁多、信息海量的公文,单纯依靠人工进行处理效率很低,费时耗力;对公文信息进行简单的检索、维护和获取也已不能满足人们的需求。如何利用计算机信息处理技术有效对海量公文数据进行自动理解,提高公文信息处理智能化水平,成为时代和社会的迫切要求。因此,对公文进行自动理解和处理,实现办公自动化,是社会管理智能化的一项重要任务,其关键是综合分析公文一切可以利用的特征和标志性成分,从中挖掘其特征、规律、发展趋势及应用价值等信息。缩略语作为公文词汇的重要组成部分,形式上具有鲜明的标志性特征,意义上具有独特丰富的内涵,是公文中的重要标志性成分。因此,对公文缩略语进行知识挖掘,是公文自动理解的重要任务。同时,缩略语的自动识别也是公文自动理解的难点。从形式来看,缩略语很多都是“表外词”或“未登录词”,需要依据词表进行自动分词的计算机难以准确识别。从语义来看,缩略语虽然形式简单,但是往往内涵独特丰富,单纯从字面上很难理解和把握,即使人工智能水平较高的计算机程序也难以准确全面地理解公文缩略语的“微言大义”。公文缩略语知识挖掘研究,就是通过对静态和动态系统的公文缩略语进行统计、分析、归纳、比较,从中发现公文缩略语的构造特征、语义特点等静态属性以及其动态使用和发展变化的规律等,为公文缩略语的自动识别提供思路和方法,服务于公文智能化信息处理。公文缩略语知识挖掘,可以为公文缩略语的自动识别提供理论和实践上的支撑,有助于进一步完善和优化有关自动分词软件的性能,提高公文自动理解的效率和准确度,在一定程度上破解公文自动理解的难题。此外,它还可以对汉语缩略语进行深入的统计描写,为共同语的研究做出贡献,为探求社会政治和文化发展演变提供参考等等,具有重要的理论意义和应用参考价值。为挖掘缩略语在形式、意义等方面的特征和规律,本文建立了公文主题词表、11种专门缩略语词典和《现代汉语词典》所见缩略语的数据库,通过对缩略语在静态系统中的缩略方式、词长、结构、词性等属性的统计分析,发现抽取核心语素的方式是缩略语主要的缩略方式。而抽取核心语素形成的缩略语组成成分之间是一种随机变量的关系,其相关性的高低对缩略语的识别具有重要意义,为基于相关性理论识别公文缩略语提供了思路。为深入考察公文缩略语的运用情况,验证静态系统缩略语知识挖掘的结论,本文建立了1200余万字的当代汉语政教类公文抽样语料库,通过分词、标注、人工校对等加工后,对其中的缩略语动态分布情况进行了抽样统计和定量分析,结果证明缩略语动态存在的属性特征与静态系统缩略语知识挖掘的结论是一致的。在此基础上,我们抽样统计了语料库中词语的二元相关性组合,进行从中识别和抽取缩略语的实验,获得了比较理想的结果。全文共分六章。第一章绪论。介绍选题的目的和意义、研究现状以及指导理论和研究方法等。汉语词汇学理论、计量语言学理论、语言文字信息处理及办公自动化理论是本研究的主要指导理论,语料库语言学、静态与动态相结合、定量与定性相结合的方法是本文的主要研究方法。第二章公文缩略语知识挖掘基础研究。通过对公文主题词表、11种专门缩略语词典和《现代汉语词典》缩略语的统计分析,归纳缩略语在缩略方式、词长、结构和功能属性等方面的特征。从中发现:抽取核心语素的方式是缩略语的主要缩略方式,其组成成分之间是一种随机变量的关系,其频度是重要参数,可以依据相关性理论进行识别;名词性缩略语和动词性缩略语是知识挖掘的重点;数字统括式缩略语重要的语法功能特征是意义上具有合理性的“数词+名词”、“数词+动词”组合,这一特征为数字统括式缩略语的自动识别提供了重要思路。由此得出:以相关性理论为基础理论,将缩略语构成成分之间的相关性作为基础参数,将其功能属性作为辅助参数,重点考察研究词长为二至四音节的缩略语,可以作为公文缩略语自动识别的基本路径。第三章政教类公文抽样语料库的研制。介绍公文语料库研制的目的、抽样原则和方法、语料库规模、语料加工等,特别是对语料库自动分词标注中的偏误进行的人工校对。第四章基于语料库的公文缩略语定量分析。统计分析公文语料库与专门缩略语词典共现缩略语在缩略方式、词长、结构和功能属性等方面的动态分布情况,验证了静态系统缩略语知识归纳所得到的基本结论。第五章公文缩略语的自动识别研究。这是本研究的主体内容和主要创新点,主要是根据静态和动态系统缩略语知识挖掘所提供的思路,基于二元相关性理论,对语料库中的词语组合进行二元相关性抽样统计,将二元相关性组合的频次和功能属性作为重要参数,重点对“1+1”式、“1+2”式、“2+1”式、“2+2”式、“数词+名词”模式和“数词+动词”模式的二元相关性组合进行缩略语识别和抽取实验,获得了比较理想的结果。由此得出如下结论:基于相关性理论,通过对词语二元相关性组合的统计分析进行缩略语识别和抽取思路正确;缩略语识别和抽取的重点应该是“1+1”式、“1+2”式和“2+1”式的组合;频次和功能属性是缩略语自动识别过程中应该参考的重要参数,将二者结合起来考察可增强缩略语识别和抽取的针对性、可行性和有效性;公文中的准缩略语,比如“教发、司函、厅函、教督、教办、教人、湘政函、豫政函、云政函、冀政函、闽政函”等,有助于计算机识别公文的形式、来源和制发单位等等,对其进行自动识别,应该将“名词+名词”模式的二元相关性组合作为重点来考察;数字统括式缩略语可以重点从“数词+名词”模式和“数词+动词”模式的二元相关性高频组合中识别和抽取。第六章结语。对本研究的基本理论和思路、存在的不足进行概括评价和总结,认为基于二元相关性理论进行公文缩略语自动识别可行有效,并提出了公文缩略语动态词表优化的基本原则。
其他文献
<正>1999年国务院发布的《社会保险费征缴暂行条例》规定:"社会保险费的征收机构由省、自治区、直辖市人民政府规定,可以由税务机关征收,也可以由劳动保障行政部门按照国务院
作为语言的物质基础,语音是听说读写等语言技能的基础。它有助于准确的表达思想,顺利的进行语言交际活动。不准确的语音阻碍了交际的顺利进行,也制约了外语学习的各项技能的
相较于高矿化度水驱,低矿化度水驱更有利于提高原油的采收率,因此,为了进一步提高三次采油的效果,室内开展了低矿化度水驱后聚合物驱提高采收率的实验研究。考察了不同矿化度
土建工程项目作为建筑项目不可缺少的一部分,在近几年得到了很大的发展,这不仅使得土建工程项目的施工技术水平得到了提升,同时还推动了建筑工程项目进一步的完善,以及城市化
近年来,我国农村商业银行在农村信用社改革的基础上,队伍不断壮大;在充分发挥自身优势的情况下,各项业务快速发展;已经成为我国金融体系中重要的组成部分。对支持地方经济发展
<正>1目录静脉血栓栓塞的预防(VTE-1)深静脉血栓形成(DVT-1)肺栓塞(PE-1)危险因素评估(VTE-A)预防性或治疗性抗凝的相关禁忌证(VTE-B)
初中政治教学重在塑造中学生的人格品质,形成正确的价值观和情感。本文介绍了新课标下初中政治教学的创新与实践,以期初中政治教师能够借势于推行新课标的良好机遇对政治教学
目的1、探讨根据子宫肌瘤及子宫腺肌病核磁共振成像(Magnetic Resonance Imaging,MRI)特点预测其微波消融所需能量的可行性;2、探讨不同T2加权成像(T2Weighted Image,T2WI)信号强度
本文从遥感动态监测实际出发,提出利用图像差值与质量控制相结合的方法选取不变特征点(PIF),较好地克服了样本选择的主观性,得到样本的相关系数达到98%以上,采用最小二乘法求解
随着人口老龄化及动脉粥样硬化疾病患病率的增加,缺血性肠病(ischemicbowel disease,ICBD)的发病率日益增高,尽管诊疗技术的改进,急性肠系膜缺血(Acute mesenteric ischemia,AMI)死亡