论文部分内容阅读
关键词:可视化标引;自动标引;可视化自动标引;格萨尔
文献标引是针对文献的情报内容和特征,从目标文献中抽取检索标识的过程。当前的标引研究主要聚焦于关键词标引、分类标引等方面,在标引方法上以基于关键词等文本信息的统计分析和语言分析为主。主题法是从内容角度进行文献标引和检索的主要方法,主题标引是文献标引工作的核心之一,其“通过主题词及主题词组配所构成的主题标识,来揭示文献的学科内容”,在实践中常与分类标引互相补充。随着全文检索需求和相关技术的提升,文献标引相关研究与实践也逐渐由文献层深入到文献内容层。
可视化的认知增强功能,能够在人们找寻信息和理解信息时提高人们的认知效率与认知能力,减轻人们的信息压力与信息负荷;可视化的语言文化功能,可基于视觉语言的特性,传达信息中“不可言说的部分”,为观察者提供更方便快捷的信息获取方式,以及更全面直观的信息内容。
本文研究通过将文本挖掘与可视化技术结合,对文本中的主题相关信息与文献章节、段落的关系进行可视化呈现,尝试将标引单元细化到文献具体内容,探索了一种新的可视化主题自动标引方法,并设计了可视化主题自动标引系统。该系统主要包括文本挖掘模块、统计模块、可视化展现模块三大核心模块和主题词全文标引数据库,为用户提供可视化、交互式的主题标引和主题检索途径,帮助用户直观高效获取信息。
1可视化主题自动标引方法
当前的自动标引研究主要基于关键词自动标引技术,依靠关键词来刻画和描述文献。随着相关技术不断发展,标引效果也得到了提升,但关键词文本所提供的信息量有限.而且无法体现其背后所指代的核心概念之间的关系;同时,文献的关键词数量也十分有限,无法收入读者需要的所有词语。另外,传统的自动标引均以文献整体为标引对象,以统计分析与语言分析为主要方法,近年来的文献标引工作逐渐深入到文献内容中,文献标引词的发现、全文标引方法的探究受到了许多学者的关注。
本文提出的可视化主题自动标引方法,可基于文本挖掘技术,针对特定主题进行文本内容挖掘,发现更具文献特征的主题词.并将其在文献中的分布情况进行可视化呈现。在可视化图像中以文本的章节或段落为横坐标,以特定主题的主题词为纵坐标,以图形将主题词在各章节、段落中的出现次数进行可视化表示,来揭示特定主题下的主题词在文本中的分布情况,可精确定位到主题词所在的章节、段落,甚至句子,方便读者和研究人员进行主题词的高效检索,并辅助其发现主题间的潜在关系。读者可通过上述视觉表现自主获取文中的多元主题信息,并在直观的视觉观察和交互式探索中确定关键词,直接定位到其所出現的具体位置,实现一种全新的基于可视化交互的文献主题自动标引方法。
2可视化主题自动标引系统
本文尝试将可视化技术引入文献标引工作,构建可视化主题自动标引系统,以实现精确到内容的可视化文献标引。如图1所示,该系统核心由三大模块和章节信息数据库构成,三大模块分别是用以实现数据文献全文处理及主题词自动提取的文本挖掘模块、基于用户输入和主题词全文标引数据库的统计模块,以及支撑用户完成交互化操作的可视化展现模块。
2.1实现数据文献全文处理及主题词自动提取的文本挖掘模块
要实现具体文献的全文标引.首先需要获取相应的全文数字文献。对于可直接提取全文文本的数字文献,如TXT、Word、文本PDF等格式的数字文献,直接通过自然语言处理(Natural LanguageProcessing)来完成文本挖掘。对于纸质文献,需要在文本挖掘之前进行扫描前处理,获取图片形式的PDF全文.通过OCR(Optical Character Recog.nition)技术将PDF转换为JSON文本。该文本包含语句所在PDF的文本内容及位置信息.将其文本内容转换为TXT文本的数字文献,位置信息转换为对应的卷、章、页、段、句等信息。
在完成全文文本信息提取后.进入文献标引主题词自动提取和计算流程,主要包括4个技术环节:1)利用分词器进行文本自动分词,分词过程中引入通用的《现代汉语词典》、文献相关的领域词典等外部词典,帮助提升分词器性能;2)通过支持向量机模型对分词结果进行词性标注,得到词语的诃l生分类结果;3)基于最大熵模型完成命名实体识别,获取在文献中具有特定意义的实体,如人名、地名等;4)基于命名实体识别结果进行特征词计算.在当前文献中算出目标词的词频,再使用《人民日报》数据集计算词语的逆文本频率指数,进而算出相应的TF-IDF值,数值越大说明该主题词对于本篇文献的重要程度越高。
选取数值较高文献主题词的重要依据。经由如上步骤,就可以根据标引需求从数字文献中挖掘并筛选出文献主题词。
基于上述的全文数字文献和主题词构建起该文献的主题词全文标引数据库,为后续研究提供数据支持。
2.2搭建基于主题词全文标引数据库的统计模块
在主题词全文标引数据库中.正文文本以句为基本单位储存,由其构建出包含卷、章、页、段、句等的文献层级结构。以倒排库形式构建数据库,可以从关键词出发去定位数据库中的文档.快速获取包含该词的文档列表,精确统计出其相应的位置信息,及其在某一章节、段落中出现的频率。
基于主题词全文标引数据库的统计模块.通过关键词匹配的方法,匹配到用户输入的关键词所在的句子,获取其在文本的卷、章、页、段、句的位置以及频率信息,进而完成数据统计。匹配过程中.系统将基于输入的关键词自动输出由数组矩阵的形式表示的关键词分布情况,其中关键词出现的词频可以章节或段落为单位进行统计和呈现,以实现关键词在文本的卷、章、页、段、句等各层级中的精准定位。
2.3实现用户交互式可视化展现模块
确定待标引的主题.以其包含的主题词作为关键词,通过统计模块获取相应数据后,即可利用可视化工具ECharts中的散点图模块,生成相应的可视化表示。在可视化图像中以文本章节、段落,甚至句子为横坐标,以主题词为纵坐标,将主题词在各章节和段落中的出现次数用大小不同的点进行表示。具体主题词在横向和纵向空间的分布情况,能直观地展示出其在文本中的分布规律及重要程度,也可揭示各主题词之间的相关性与权重。 用户可基于可视化呈现效果.根据其中图形大小、共现位置等的视觉相关关系发现信息,利用可视化展现模块支持的放大、点击等交互式操作进一步探索相关信息。交互过程中本模块将根据用户输入反馈相应的可视化分析结果,比如在点击、放大主题词所在章节、段落位置的节点后,系统将进一步展现相关信息.让用户清晰获取相关主题词在各章节、段落中的出現情况,或通过系统直接定位到关键词在章节段落数据库中所在的具体位置,详细呈现相应的正文文本内容信息。
3以《英雄格萨尔》为例的可视化主题自动标引
《格萨尔》是广泛流传于我国藏区的英雄史诗,素有“东方荷马史诗”之美誉,其篇幅宏大、情节复杂、版本多样、说唱体特点鲜明、语言词汇极具领域性,艺术文化价值巨大,文本处理难度也极高。自11世纪以来,越来越多的研究者和相关人员对其展开整理工作.随着学科研究的深入,高效便捷地进行全面的文献研究成为了学科研究面临的一大挑战。可视化主题自动标引的方法,有助于优化文献的全文标引结果,提升学科文献检索等相关研究与应用的效果。从文献内容来看,史诗围绕格萨尔展开,主要描述众多人物在各个部落发生的事件,人物、地域宗族是文献中的重要数据,本文研究即以这两大主题进行自动标引探索。
3.1《英雄格萨尔》主题自动标引的数据准备与预处理
本文选取降边嘉措主编的《英雄格萨尔》作为史诗文本,先通过OCR技术对文献图片进行文字识别,完成图片到文本的自动转换,再经人工校对得到3.95MB的全文文本数据,其中正文部分包含5卷书、220个章节、1833页、28444个段落和47571个句子,构成了待标引的数字文献。
鉴于格萨尔领域存在大量领域性显著的词汇,文献主题词的选取过程较为复杂。首先利用Jieba分词器以句为基本单位对文本进行分词.并在过程中添加《现代汉语词典第5版》和《常见藏语人名地名词典》以提升分词效果,之后由手工验证分词结果。接着使用哈工大LTP词性标注模型,通过支持向量机模型和863词性标注集对分词结果进行诃l生标注,再手工筛选出人物和地域宗族主题词汇。接下来对哈工大的LTP命名实体识别模型进行训练,将《英雄格萨尔》(卷一)标注为人名、地域与宗族名等8类,并将该文本按照9:1的权重分为训练集与测试集。根据50轮的最大熵模型训练结果来看,第29轮测试集调和平均值最高,用此轮模型对《英雄格萨尔》第二至五卷的分词与词性标注结果进行命名实体识别.将人名标记为Nh,地名标记为Ns。接下来计算人名、地域与宗族名相对于2000年1月至12月的《人民日报》TF-IDF值,按照数值从高到低进行词语排序,再通过人工筛选就可得到文献在人物、地域与宗族主题中的主题词。
基于文本挖掘技术完成《英雄格萨尔》的数字文献获取和主题词选取后.即可利用相关数据构建主题词全文标引数据库,配合文献统计模块和ECharts中的可视化模块.以可视化的主题自动标引方法,从人物和地域宗族主题角度进行主题自动标引的实践探索。
3.2单一主题单个主题词的可视化主题自动标引
分别从人物主题和地域与宗族主题中选取一个主题词,以其为例对主题词在全文章节中的出现情况.及其在某一章节段落中的出现情况进行可视化主题自动标引研究。
根据统计模块显示.格萨尔王的王妃之一阿达娜姆在全文中共在64个章节里出场311次,是史诗中的一个重要人物.我们将其作为人物主题的示例进行可视化主题自动标引研究。以章为单位,根据其在全文中的出现次数绘制出图3,其中横向坐标对应人物出现的章节位置,散点大小表示出现次数的多少。
观察图3可知.阿达娜姆自出场后就开始就持续、有规律地出现在文本中,其中最后几章的词频显著高于其他章节。统计模块反馈的数据显示,阿达娜姆在史诗尾声的214~218章中词频突增,点击该区域获取主题词出现段落的可视化表示,可对人物进行深入了解。以第215章的出现段落分布为例,通过可视化主题自动标引结果,可观察到人物在该章具体段落中的出现情况如图4所示。
点击人物在215章中首次出现的节点,即可于标引系统中Book:5;Chapter:215;Page:48;Para.graph:656;Sentence:1位置检索到句子:“过了七七四十九天,阿达娜姆的灵魂到了生死沙山山口,此时阎罗王已经感应到了有个非同寻常的人到了地狱中来”.说明与阿达娜姆相关的情节发生的地点转到了地狱。由“阿达娜姆”在本章的密集分布,推测后续有大量情节与其相关,点击查看本章其他节点,可知故事围绕阿达娜姆在地狱接受审判展开,验证了推测。若想完整了解史诗塑造的人物,则可定位到其在全文中其他章节的节点,获取人物身份、关涉情节、人物结局等相关信息,通过直观观察和便捷的检索交互即可较清晰地梳理出人物发展脉络。
在地域与宗族主题中,我们选择“财宝城”为例进行分析.根据图5所示的可视化分布结果来看.主题词集中出现的位置大致在第100~110章,并且其词频在最后出现的章节激增。
选中财宝城的出现区域并放大,可清晰查看到其出现位置和次数,如图6所示,可知第108章是主题词出现的核心章节。
点击查看主题词在第108章的段落分布情况如图7所示,主题词在该章节中的分布具有显著的规律性,出现段落中的词频数量均衡,而且前半部分的出现间隔差异较小。
通过点击段落分布图节点,定位到该章节中的具体句子.发现财宝城在第108章中Paragraph:4599 Sentence:1、Paragraph:4607 Sentence:1等7个位置的句子内容均为“请攻下大食财宝城”,一方面揭示了本章情节以攻打城堡为主线:另一方面也由主题词所在的唱词部分体现出史诗文本说唱体的特点。
根据以上可视化主题自动标引结果可知,单一主题单个主题词的可视化在揭示主题词分布规律和主题词在章节中的重要性方面效果显著,与其对应的主题自动标引在深入揭示主题词相关的文本内容、故事情节、人物发展,甚至文本语言特点等方面都有良好表现。
文献标引是针对文献的情报内容和特征,从目标文献中抽取检索标识的过程。当前的标引研究主要聚焦于关键词标引、分类标引等方面,在标引方法上以基于关键词等文本信息的统计分析和语言分析为主。主题法是从内容角度进行文献标引和检索的主要方法,主题标引是文献标引工作的核心之一,其“通过主题词及主题词组配所构成的主题标识,来揭示文献的学科内容”,在实践中常与分类标引互相补充。随着全文检索需求和相关技术的提升,文献标引相关研究与实践也逐渐由文献层深入到文献内容层。
可视化的认知增强功能,能够在人们找寻信息和理解信息时提高人们的认知效率与认知能力,减轻人们的信息压力与信息负荷;可视化的语言文化功能,可基于视觉语言的特性,传达信息中“不可言说的部分”,为观察者提供更方便快捷的信息获取方式,以及更全面直观的信息内容。
本文研究通过将文本挖掘与可视化技术结合,对文本中的主题相关信息与文献章节、段落的关系进行可视化呈现,尝试将标引单元细化到文献具体内容,探索了一种新的可视化主题自动标引方法,并设计了可视化主题自动标引系统。该系统主要包括文本挖掘模块、统计模块、可视化展现模块三大核心模块和主题词全文标引数据库,为用户提供可视化、交互式的主题标引和主题检索途径,帮助用户直观高效获取信息。
1可视化主题自动标引方法
当前的自动标引研究主要基于关键词自动标引技术,依靠关键词来刻画和描述文献。随着相关技术不断发展,标引效果也得到了提升,但关键词文本所提供的信息量有限.而且无法体现其背后所指代的核心概念之间的关系;同时,文献的关键词数量也十分有限,无法收入读者需要的所有词语。另外,传统的自动标引均以文献整体为标引对象,以统计分析与语言分析为主要方法,近年来的文献标引工作逐渐深入到文献内容中,文献标引词的发现、全文标引方法的探究受到了许多学者的关注。
本文提出的可视化主题自动标引方法,可基于文本挖掘技术,针对特定主题进行文本内容挖掘,发现更具文献特征的主题词.并将其在文献中的分布情况进行可视化呈现。在可视化图像中以文本的章节或段落为横坐标,以特定主题的主题词为纵坐标,以图形将主题词在各章节、段落中的出现次数进行可视化表示,来揭示特定主题下的主题词在文本中的分布情况,可精确定位到主题词所在的章节、段落,甚至句子,方便读者和研究人员进行主题词的高效检索,并辅助其发现主题间的潜在关系。读者可通过上述视觉表现自主获取文中的多元主题信息,并在直观的视觉观察和交互式探索中确定关键词,直接定位到其所出現的具体位置,实现一种全新的基于可视化交互的文献主题自动标引方法。
2可视化主题自动标引系统
本文尝试将可视化技术引入文献标引工作,构建可视化主题自动标引系统,以实现精确到内容的可视化文献标引。如图1所示,该系统核心由三大模块和章节信息数据库构成,三大模块分别是用以实现数据文献全文处理及主题词自动提取的文本挖掘模块、基于用户输入和主题词全文标引数据库的统计模块,以及支撑用户完成交互化操作的可视化展现模块。
2.1实现数据文献全文处理及主题词自动提取的文本挖掘模块
要实现具体文献的全文标引.首先需要获取相应的全文数字文献。对于可直接提取全文文本的数字文献,如TXT、Word、文本PDF等格式的数字文献,直接通过自然语言处理(Natural LanguageProcessing)来完成文本挖掘。对于纸质文献,需要在文本挖掘之前进行扫描前处理,获取图片形式的PDF全文.通过OCR(Optical Character Recog.nition)技术将PDF转换为JSON文本。该文本包含语句所在PDF的文本内容及位置信息.将其文本内容转换为TXT文本的数字文献,位置信息转换为对应的卷、章、页、段、句等信息。
在完成全文文本信息提取后.进入文献标引主题词自动提取和计算流程,主要包括4个技术环节:1)利用分词器进行文本自动分词,分词过程中引入通用的《现代汉语词典》、文献相关的领域词典等外部词典,帮助提升分词器性能;2)通过支持向量机模型对分词结果进行词性标注,得到词语的诃l生分类结果;3)基于最大熵模型完成命名实体识别,获取在文献中具有特定意义的实体,如人名、地名等;4)基于命名实体识别结果进行特征词计算.在当前文献中算出目标词的词频,再使用《人民日报》数据集计算词语的逆文本频率指数,进而算出相应的TF-IDF值,数值越大说明该主题词对于本篇文献的重要程度越高。
选取数值较高文献主题词的重要依据。经由如上步骤,就可以根据标引需求从数字文献中挖掘并筛选出文献主题词。
基于上述的全文数字文献和主题词构建起该文献的主题词全文标引数据库,为后续研究提供数据支持。
2.2搭建基于主题词全文标引数据库的统计模块
在主题词全文标引数据库中.正文文本以句为基本单位储存,由其构建出包含卷、章、页、段、句等的文献层级结构。以倒排库形式构建数据库,可以从关键词出发去定位数据库中的文档.快速获取包含该词的文档列表,精确统计出其相应的位置信息,及其在某一章节、段落中出现的频率。
基于主题词全文标引数据库的统计模块.通过关键词匹配的方法,匹配到用户输入的关键词所在的句子,获取其在文本的卷、章、页、段、句的位置以及频率信息,进而完成数据统计。匹配过程中.系统将基于输入的关键词自动输出由数组矩阵的形式表示的关键词分布情况,其中关键词出现的词频可以章节或段落为单位进行统计和呈现,以实现关键词在文本的卷、章、页、段、句等各层级中的精准定位。
2.3实现用户交互式可视化展现模块
确定待标引的主题.以其包含的主题词作为关键词,通过统计模块获取相应数据后,即可利用可视化工具ECharts中的散点图模块,生成相应的可视化表示。在可视化图像中以文本章节、段落,甚至句子为横坐标,以主题词为纵坐标,将主题词在各章节和段落中的出现次数用大小不同的点进行表示。具体主题词在横向和纵向空间的分布情况,能直观地展示出其在文本中的分布规律及重要程度,也可揭示各主题词之间的相关性与权重。 用户可基于可视化呈现效果.根据其中图形大小、共现位置等的视觉相关关系发现信息,利用可视化展现模块支持的放大、点击等交互式操作进一步探索相关信息。交互过程中本模块将根据用户输入反馈相应的可视化分析结果,比如在点击、放大主题词所在章节、段落位置的节点后,系统将进一步展现相关信息.让用户清晰获取相关主题词在各章节、段落中的出現情况,或通过系统直接定位到关键词在章节段落数据库中所在的具体位置,详细呈现相应的正文文本内容信息。
3以《英雄格萨尔》为例的可视化主题自动标引
《格萨尔》是广泛流传于我国藏区的英雄史诗,素有“东方荷马史诗”之美誉,其篇幅宏大、情节复杂、版本多样、说唱体特点鲜明、语言词汇极具领域性,艺术文化价值巨大,文本处理难度也极高。自11世纪以来,越来越多的研究者和相关人员对其展开整理工作.随着学科研究的深入,高效便捷地进行全面的文献研究成为了学科研究面临的一大挑战。可视化主题自动标引的方法,有助于优化文献的全文标引结果,提升学科文献检索等相关研究与应用的效果。从文献内容来看,史诗围绕格萨尔展开,主要描述众多人物在各个部落发生的事件,人物、地域宗族是文献中的重要数据,本文研究即以这两大主题进行自动标引探索。
3.1《英雄格萨尔》主题自动标引的数据准备与预处理
本文选取降边嘉措主编的《英雄格萨尔》作为史诗文本,先通过OCR技术对文献图片进行文字识别,完成图片到文本的自动转换,再经人工校对得到3.95MB的全文文本数据,其中正文部分包含5卷书、220个章节、1833页、28444个段落和47571个句子,构成了待标引的数字文献。
鉴于格萨尔领域存在大量领域性显著的词汇,文献主题词的选取过程较为复杂。首先利用Jieba分词器以句为基本单位对文本进行分词.并在过程中添加《现代汉语词典第5版》和《常见藏语人名地名词典》以提升分词效果,之后由手工验证分词结果。接着使用哈工大LTP词性标注模型,通过支持向量机模型和863词性标注集对分词结果进行诃l生标注,再手工筛选出人物和地域宗族主题词汇。接下来对哈工大的LTP命名实体识别模型进行训练,将《英雄格萨尔》(卷一)标注为人名、地域与宗族名等8类,并将该文本按照9:1的权重分为训练集与测试集。根据50轮的最大熵模型训练结果来看,第29轮测试集调和平均值最高,用此轮模型对《英雄格萨尔》第二至五卷的分词与词性标注结果进行命名实体识别.将人名标记为Nh,地名标记为Ns。接下来计算人名、地域与宗族名相对于2000年1月至12月的《人民日报》TF-IDF值,按照数值从高到低进行词语排序,再通过人工筛选就可得到文献在人物、地域与宗族主题中的主题词。
基于文本挖掘技术完成《英雄格萨尔》的数字文献获取和主题词选取后.即可利用相关数据构建主题词全文标引数据库,配合文献统计模块和ECharts中的可视化模块.以可视化的主题自动标引方法,从人物和地域宗族主题角度进行主题自动标引的实践探索。
3.2单一主题单个主题词的可视化主题自动标引
分别从人物主题和地域与宗族主题中选取一个主题词,以其为例对主题词在全文章节中的出现情况.及其在某一章节段落中的出现情况进行可视化主题自动标引研究。
根据统计模块显示.格萨尔王的王妃之一阿达娜姆在全文中共在64个章节里出场311次,是史诗中的一个重要人物.我们将其作为人物主题的示例进行可视化主题自动标引研究。以章为单位,根据其在全文中的出现次数绘制出图3,其中横向坐标对应人物出现的章节位置,散点大小表示出现次数的多少。
观察图3可知.阿达娜姆自出场后就开始就持续、有规律地出现在文本中,其中最后几章的词频显著高于其他章节。统计模块反馈的数据显示,阿达娜姆在史诗尾声的214~218章中词频突增,点击该区域获取主题词出现段落的可视化表示,可对人物进行深入了解。以第215章的出现段落分布为例,通过可视化主题自动标引结果,可观察到人物在该章具体段落中的出现情况如图4所示。
点击人物在215章中首次出现的节点,即可于标引系统中Book:5;Chapter:215;Page:48;Para.graph:656;Sentence:1位置检索到句子:“过了七七四十九天,阿达娜姆的灵魂到了生死沙山山口,此时阎罗王已经感应到了有个非同寻常的人到了地狱中来”.说明与阿达娜姆相关的情节发生的地点转到了地狱。由“阿达娜姆”在本章的密集分布,推测后续有大量情节与其相关,点击查看本章其他节点,可知故事围绕阿达娜姆在地狱接受审判展开,验证了推测。若想完整了解史诗塑造的人物,则可定位到其在全文中其他章节的节点,获取人物身份、关涉情节、人物结局等相关信息,通过直观观察和便捷的检索交互即可较清晰地梳理出人物发展脉络。
在地域与宗族主题中,我们选择“财宝城”为例进行分析.根据图5所示的可视化分布结果来看.主题词集中出现的位置大致在第100~110章,并且其词频在最后出现的章节激增。
选中财宝城的出现区域并放大,可清晰查看到其出现位置和次数,如图6所示,可知第108章是主题词出现的核心章节。
点击查看主题词在第108章的段落分布情况如图7所示,主题词在该章节中的分布具有显著的规律性,出现段落中的词频数量均衡,而且前半部分的出现间隔差异较小。
通过点击段落分布图节点,定位到该章节中的具体句子.发现财宝城在第108章中Paragraph:4599 Sentence:1、Paragraph:4607 Sentence:1等7个位置的句子内容均为“请攻下大食财宝城”,一方面揭示了本章情节以攻打城堡为主线:另一方面也由主题词所在的唱词部分体现出史诗文本说唱体的特点。
根据以上可视化主题自动标引结果可知,单一主题单个主题词的可视化在揭示主题词分布规律和主题词在章节中的重要性方面效果显著,与其对应的主题自动标引在深入揭示主题词相关的文本内容、故事情节、人物发展,甚至文本语言特点等方面都有良好表现。