社会网络分析视角下方志古籍知识组织研究

来源 :南京农业大学 | 被引量 : 0次 | 上传用户:aswdea
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
20世纪50年代,我国著名农史学家万国鼎主持汇编了一套方志农业专题资料——《方志物产》,共431册、3000余万字,摘抄自全国40多个大中型城市、100多个文史单位的数千部地方志,时间长、范围广,数量大、内容多,价值高、意义重,为农史研究和区域史研究提供了重要的资料来源,具有极高的研究价值。目前,《方志物产》数字化整理研究处于起步阶段,无论是在地域范围的选择上,研究方法的应用上,还是文本内容的挖掘上,都需要持续的关注和开拓。融合传统研究方法和现代信息技术,从单省份到多省份到全国范围实现从局部到整体的研究,从单一对象到多重对象的挖掘,更大程度地发掘和利用《方志物产》的价值,更好地为科学研究和社会发展服务。本研究立足于信息化社会的大环境和数字人文的大背景下,以《方志物产》山西分卷的电子文本为研究语料,通过智能化识别文中的命名实体,抽取实体之间的关联关系,构建社会网络的数据源,借助社会网络分析方法,实现实体之间关系的可视化展示,从不同的视角根据实际需求对网络进行分析,以便进行知识发现。主要的研究内容如下:(1)《方志物产》山西分卷全文数据库建设通过梳理《方志物产》山西分卷文本特征,在前人研究的基础上,设计了一套文本规范化的标准,并借助文本处理软件实现全部文本的格式化处理,以此为依据,设计数据库的表格和字段,批量导入文本,完成数据库的建设。数据库中,共包含志书表、物产分类信息表和物产基本信息表三个表格。其中,志书表的主键志书编号为物产分类信息表的外键,物产分类信息表的主键分类编号为物产基本信息表的外键,这样不仅保证了信息的完整性,还减少了信息冗余,在保证信息添加、删除、修改、查询等基础操作的情况下,还可以便捷地实现三张表格的联合查询。(2)《方志物产》山西分卷所载的物产信息研究在系统梳理我国物产分类体系发展历史的基础上,结合《方志物产》山西分卷中物产分类体系的特征,构建一套符合《方志物产》特征的物产分类体系,借助数据库技术和其它信息技术,智能化地实现物产原有分类信息的优化处理,补全原来空缺的物产分类信息,计算物产分类信息智能化处理的效果。在物产分类信息智能优化的基础上,以志书名称中包含的地名为物产的产地,并统一成该地名所属的府州的名称,根据物产名称与地名的关系以及物产名称与分类信息的关系,引入地理信息系统技术,对物产的总体分布、不同类别的物产的分布、类别信息的分布等进行地图可视化展示。(3)基于条件随机场的《方志物产》山西分卷实体识别研究以物产备注信息不为空的所有物产信息为研究语料,通过人工标注的方式,对物产备注信息中蕴含的物产别名、引用的文献、涉及的人物、标明的地名、物产的用途等进行标注。在人工标注的基础上,将研究语料平均分为十等份,每次选取其中九份作为训练语料,另外一份作为测试语料,使用条件随机场模型对训练语料进行学习,分析标注部分的内外部特征,形成特征模板,从而完成识别的模型的构建。用测试语料对识别模型的识别效果进行测试,测试指标为精确率、召回率和调和平均数。测试结果表明,条件随机场模型的识别效果与两个因素密切相关:一是语料库规模的大小,条件随机场在大数据环境下能够发挥更好的作用,《方志物产》总体数量比较大,而仅仅山西分卷而言,数量较少,导致模型的学习内容单一,特征模板不完善,测试结果还有待提高;二是语料的人工标注程度高低,漏标、错标的数量越少,程度越高,模型的学习越全面,特征模板与测试语料的匹配程度越高,识别效果也越好。(4)基于社会网络分析的《方志物产》山西分卷知识组织研究在基于条件随机场模型对《方志物产》山西分卷实体识别的基础上,根据物产名称与识别结果的对应关系,提取物产名称与物产别名、物产名称与地名、物产名称与人物、物产名称与用途、物产名称与时间等关联关系的数据,形成社会网络分析所需要的数据源。使用社会网络分析相关软件,对数据源中的数据进行图形化的展示,并根据不同的特征和需求,采用不同的视角进行网络分析,主要有三种视角:宏观视角的整体网分析、中观视角的局部网分析、微观视角的个体网分析。物产名称与物产别名之间的网络分析。通过点度分析一个物产具有多少个别名,一个别名可以成为多少物产的共有别名;通过线值分析一个别名是否是一个物产的常用别名;通过自我中心网络展示一个物产的别名信息或者一个别名关联的物产信息;通过联通网络发现不同种类的物产具有相同的别名。基于历史的视角分析物产别名的由来以及物产别名网络中发现的现象。物产名称与引用人物之间的网络分析。通过点度分析一个物产引用了多少个人物,一个人物被多少个物产引用过;通过线值分析一个人物被一个物产引用的次数;通过个人中心网络展示一个人物被哪些物产引用过,一个物产引用了哪些人物;通过网络维度的转换,提取单一的人物共被引网络,用点度中心度寻找网络中的名人,用间距中心性寻找网络中的中介人物,用接近中心度寻找网络中的最佳信息传播者。物产名称与物产用途之间的网络分析。选取物产用途中的药用价值信息为研究对象,首先,以描述药用价值的词作为研究单位,通过点度分析以一个物产具有哪些药用价值,哪些物产具有相同的药用价值;通过线值分析一个物产的哪方面的药用价值记载的最多;通过网络维度的转换,依据药用价值的相同为关联,提取具有单一的物产名称网络,通过间距中心性,探索物产名称的聚类以及中介信息。其次,以描述药用价值的词中包含的字作为研究单位,分析物产因药用价值相似而形成的关联关系。物产在时空上的变迁研究。首先,研究物产在时间线上的变迁,根据不同的标准进行时间段的划分,通过局部网视角,以第一个时间段内记载的物产为样例,寻找消失的物产名称,以最后一个时间段内记载的物产为样例,寻找新增的物产名称;其次,研究物产在空间线上的变迁,通过点度分析哪个地区的物产最为丰富,哪个地区的物产最为贫瘠,哪些物产分分布范围最广,哪些物产的分布范围最小;再次,选取“棉”作为研究对象,分析棉在山西省内的引种和传播过程。在完成以上研究工作的前提下,本研究仍存在着不足之处,有待于进一步的改进和完善。首先,在数据格式化和语料标注的过程中,都有人工参与,人工操作难免会有出现疏漏的地方,需要不断的检查和完善人工操作的结果;其次,在格式化处理过程仅实现了一部分自动化处理,物产分类信息的智能优化过程中,最后仍有一部分物产的分类信息无法规范,只能通过人工判别,仍需继续探索更加行之有效的办法,实现操作的全自动化处理;再次,本研究的地域范围较小,语料规模较少,仅仅是进行方法的可行性探索,仍需要在更大范围更大规模的语料上进行尝试;最后,本研究得出的结果都是语料内容的客观记载,没有参杂人为的主观因素,目的是为农史研究人员提供资料参考和研究思路,结果的利用仍需要进行专业辨析和考证。总之,本研究将文献学、情报学、计算机等技术和方法应用于《方志物产》的内容挖掘中,通过命名实体识别和社会网络分析方法,实现了命名实体自动抽取和时空关联可视化,发现物产分布、物产变迁等方面的相关信息,为方志古籍知识组织提供新的方法和视角,拓展了现代信息技术的应用范围。
其他文献
中国农村存在大量的农业剩余劳动力是众所周知的事实,专家学者对农业剩余劳动力的数量有不同的看法和估算方法,估算的数值从2000多万到2亿多,相差甚远。本文试图用实证的分析方
福建省长汀县是中国南方最严重的水土流失区之一,在20世纪80年代初和2000年两次集中治理的推动下,当地生态环境已得到显著改善。基于Landsat系列卫星影像提取长汀县1975—201
改革开放以来,特别是1992年小平同志南巡讲话以后,山东省外向型经济发展十分迅猛,但相对于广东、上海等地仍存在较大的差距。因此,促进山东省外向型经济的进一步发展,也就成为我省
肌内脂肪(Intramuscular fat,IMF)和皮下脂肪是猪的两个重要的肉质相关性状。肌内脂肪含量影响p H值、肉色、嫩度、气味等相关肉质性状,而皮下脂肪也与猪肉质性状和经济价值
伴随我国金融行业迅猛发展,企业文化建设在金融行业此起彼伏,金融行业希望通过企业文化建设提高竞争软实力,掌握新时期主动权,在严酷竞争中岿然屹立。然而在实际建设过程中存在一
期刊
传统财务管理理论认为:通常情况下,当公司面临融资活动时,首先是考虑使用公司留存收益进行融资,其次考虑债务型融资,最后则是通过增发新股进行融资。因此债券与股权融资是公
文章从经济学的角度,对自行车盗销过程中各相关主体利益进行了分析,并就加强自行车管理提出了对策.
近年来,影视行业飞速发展,伴随着丰富的机遇,也面临着巨大的挑战。企业如果不能及时有效地识别和防范财务风险,那么将会陷入财务危机之中。作为国内首家IPO上市的民营影视公
文章比较了多模光纤和塑料光纤的结构参数和模式数量,并对大量的模式色散会严重限制光纤的带宽作了分析。根据选择性激发能够有效减少模式色散从而能提高带宽的原理,提出了一种