基于文本挖掘和可视化技术的主题自动标引方法

来源 :现代情报 | 被引量 : 0次 | 上传用户:zane35
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  关键词:可视化标引;自动标引;可视化自动标引;格萨尔
  文献标引是针对文献的情报内容和特征,从目标文献中抽取检索标识的过程。当前的标引研究主要聚焦于关键词标引、分类标引等方面,在标引方法上以基于关键词等文本信息的统计分析和语言分析为主。主题法是从内容角度进行文献标引和检索的主要方法,主题标引是文献标引工作的核心之一,其“通过主题词及主题词组配所构成的主题标识,来揭示文献的学科内容”,在实践中常与分类标引互相补充。随着全文检索需求和相关技术的提升,文献标引相关研究与实践也逐渐由文献层深入到文献内容层。
  可视化的认知增强功能,能够在人们找寻信息和理解信息时提高人们的认知效率与认知能力,减轻人们的信息压力与信息负荷;可视化的语言文化功能,可基于视觉语言的特性,传达信息中“不可言说的部分”,为观察者提供更方便快捷的信息获取方式,以及更全面直观的信息内容。
  本文研究通过将文本挖掘与可视化技术结合,对文本中的主题相关信息与文献章节、段落的关系进行可视化呈现,尝试将标引单元细化到文献具体内容,探索了一种新的可视化主题自动标引方法,并设计了可视化主题自动标引系统。该系统主要包括文本挖掘模块、统计模块、可视化展现模块三大核心模块和主题词全文标引数据库,为用户提供可视化、交互式的主题标引和主题检索途径,帮助用户直观高效获取信息。
  1可视化主题自动标引方法
  当前的自动标引研究主要基于关键词自动标引技术,依靠关键词来刻画和描述文献。随着相关技术不断发展,标引效果也得到了提升,但关键词文本所提供的信息量有限.而且无法体现其背后所指代的核心概念之间的关系;同时,文献的关键词数量也十分有限,无法收入读者需要的所有词语。另外,传统的自动标引均以文献整体为标引对象,以统计分析与语言分析为主要方法,近年来的文献标引工作逐渐深入到文献内容中,文献标引词的发现、全文标引方法的探究受到了许多学者的关注。
  本文提出的可视化主题自动标引方法,可基于文本挖掘技术,针对特定主题进行文本内容挖掘,发现更具文献特征的主题词.并将其在文献中的分布情况进行可视化呈现。在可视化图像中以文本的章节或段落为横坐标,以特定主题的主题词为纵坐标,以图形将主题词在各章节、段落中的出现次数进行可视化表示,来揭示特定主题下的主题词在文本中的分布情况,可精确定位到主题词所在的章节、段落,甚至句子,方便读者和研究人员进行主题词的高效检索,并辅助其发现主题间的潜在关系。读者可通过上述视觉表现自主获取文中的多元主题信息,并在直观的视觉观察和交互式探索中确定关键词,直接定位到其所出現的具体位置,实现一种全新的基于可视化交互的文献主题自动标引方法。
  2可视化主题自动标引系统
  本文尝试将可视化技术引入文献标引工作,构建可视化主题自动标引系统,以实现精确到内容的可视化文献标引。如图1所示,该系统核心由三大模块和章节信息数据库构成,三大模块分别是用以实现数据文献全文处理及主题词自动提取的文本挖掘模块、基于用户输入和主题词全文标引数据库的统计模块,以及支撑用户完成交互化操作的可视化展现模块。
  2.1实现数据文献全文处理及主题词自动提取的文本挖掘模块
  要实现具体文献的全文标引.首先需要获取相应的全文数字文献。对于可直接提取全文文本的数字文献,如TXT、Word、文本PDF等格式的数字文献,直接通过自然语言处理(Natural LanguageProcessing)来完成文本挖掘。对于纸质文献,需要在文本挖掘之前进行扫描前处理,获取图片形式的PDF全文.通过OCR(Optical Character Recog.nition)技术将PDF转换为JSON文本。该文本包含语句所在PDF的文本内容及位置信息.将其文本内容转换为TXT文本的数字文献,位置信息转换为对应的卷、章、页、段、句等信息。
  在完成全文文本信息提取后.进入文献标引主题词自动提取和计算流程,主要包括4个技术环节:1)利用分词器进行文本自动分词,分词过程中引入通用的《现代汉语词典》、文献相关的领域词典等外部词典,帮助提升分词器性能;2)通过支持向量机模型对分词结果进行词性标注,得到词语的诃l生分类结果;3)基于最大熵模型完成命名实体识别,获取在文献中具有特定意义的实体,如人名、地名等;4)基于命名实体识别结果进行特征词计算.在当前文献中算出目标词的词频,再使用《人民日报》数据集计算词语的逆文本频率指数,进而算出相应的TF-IDF值,数值越大说明该主题词对于本篇文献的重要程度越高。
  选取数值较高文献主题词的重要依据。经由如上步骤,就可以根据标引需求从数字文献中挖掘并筛选出文献主题词。
  基于上述的全文数字文献和主题词构建起该文献的主题词全文标引数据库,为后续研究提供数据支持。
  2.2搭建基于主题词全文标引数据库的统计模块
  在主题词全文标引数据库中.正文文本以句为基本单位储存,由其构建出包含卷、章、页、段、句等的文献层级结构。以倒排库形式构建数据库,可以从关键词出发去定位数据库中的文档.快速获取包含该词的文档列表,精确统计出其相应的位置信息,及其在某一章节、段落中出现的频率。
  基于主题词全文标引数据库的统计模块.通过关键词匹配的方法,匹配到用户输入的关键词所在的句子,获取其在文本的卷、章、页、段、句的位置以及频率信息,进而完成数据统计。匹配过程中.系统将基于输入的关键词自动输出由数组矩阵的形式表示的关键词分布情况,其中关键词出现的词频可以章节或段落为单位进行统计和呈现,以实现关键词在文本的卷、章、页、段、句等各层级中的精准定位。
  2.3实现用户交互式可视化展现模块
  确定待标引的主题.以其包含的主题词作为关键词,通过统计模块获取相应数据后,即可利用可视化工具ECharts中的散点图模块,生成相应的可视化表示。在可视化图像中以文本章节、段落,甚至句子为横坐标,以主题词为纵坐标,将主题词在各章节和段落中的出现次数用大小不同的点进行表示。具体主题词在横向和纵向空间的分布情况,能直观地展示出其在文本中的分布规律及重要程度,也可揭示各主题词之间的相关性与权重。   用户可基于可视化呈现效果.根据其中图形大小、共现位置等的视觉相关关系发现信息,利用可视化展现模块支持的放大、点击等交互式操作进一步探索相关信息。交互过程中本模块将根据用户输入反馈相应的可视化分析结果,比如在点击、放大主题词所在章节、段落位置的节点后,系统将进一步展现相关信息.让用户清晰获取相关主题词在各章节、段落中的出現情况,或通过系统直接定位到关键词在章节段落数据库中所在的具体位置,详细呈现相应的正文文本内容信息。
  3以《英雄格萨尔》为例的可视化主题自动标引
  《格萨尔》是广泛流传于我国藏区的英雄史诗,素有“东方荷马史诗”之美誉,其篇幅宏大、情节复杂、版本多样、说唱体特点鲜明、语言词汇极具领域性,艺术文化价值巨大,文本处理难度也极高。自11世纪以来,越来越多的研究者和相关人员对其展开整理工作.随着学科研究的深入,高效便捷地进行全面的文献研究成为了学科研究面临的一大挑战。可视化主题自动标引的方法,有助于优化文献的全文标引结果,提升学科文献检索等相关研究与应用的效果。从文献内容来看,史诗围绕格萨尔展开,主要描述众多人物在各个部落发生的事件,人物、地域宗族是文献中的重要数据,本文研究即以这两大主题进行自动标引探索。
  3.1《英雄格萨尔》主题自动标引的数据准备与预处理
  本文选取降边嘉措主编的《英雄格萨尔》作为史诗文本,先通过OCR技术对文献图片进行文字识别,完成图片到文本的自动转换,再经人工校对得到3.95MB的全文文本数据,其中正文部分包含5卷书、220个章节、1833页、28444个段落和47571个句子,构成了待标引的数字文献。
  鉴于格萨尔领域存在大量领域性显著的词汇,文献主题词的选取过程较为复杂。首先利用Jieba分词器以句为基本单位对文本进行分词.并在过程中添加《现代汉语词典第5版》和《常见藏语人名地名词典》以提升分词效果,之后由手工验证分词结果。接着使用哈工大LTP词性标注模型,通过支持向量机模型和863词性标注集对分词结果进行诃l生标注,再手工筛选出人物和地域宗族主题词汇。接下来对哈工大的LTP命名实体识别模型进行训练,将《英雄格萨尔》(卷一)标注为人名、地域与宗族名等8类,并将该文本按照9:1的权重分为训练集与测试集。根据50轮的最大熵模型训练结果来看,第29轮测试集调和平均值最高,用此轮模型对《英雄格萨尔》第二至五卷的分词与词性标注结果进行命名实体识别.将人名标记为Nh,地名标记为Ns。接下来计算人名、地域与宗族名相对于2000年1月至12月的《人民日报》TF-IDF值,按照数值从高到低进行词语排序,再通过人工筛选就可得到文献在人物、地域与宗族主题中的主题词。
  基于文本挖掘技术完成《英雄格萨尔》的数字文献获取和主题词选取后.即可利用相关数据构建主题词全文标引数据库,配合文献统计模块和ECharts中的可视化模块.以可视化的主题自动标引方法,从人物和地域宗族主题角度进行主题自动标引的实践探索。
  3.2单一主题单个主题词的可视化主题自动标引
  分别从人物主题和地域与宗族主题中选取一个主题词,以其为例对主题词在全文章节中的出现情况.及其在某一章节段落中的出现情况进行可视化主题自动标引研究。
  根据统计模块显示.格萨尔王的王妃之一阿达娜姆在全文中共在64个章节里出场311次,是史诗中的一个重要人物.我们将其作为人物主题的示例进行可视化主题自动标引研究。以章为单位,根据其在全文中的出现次数绘制出图3,其中横向坐标对应人物出现的章节位置,散点大小表示出现次数的多少。
  观察图3可知.阿达娜姆自出场后就开始就持续、有规律地出现在文本中,其中最后几章的词频显著高于其他章节。统计模块反馈的数据显示,阿达娜姆在史诗尾声的214~218章中词频突增,点击该区域获取主题词出现段落的可视化表示,可对人物进行深入了解。以第215章的出现段落分布为例,通过可视化主题自动标引结果,可观察到人物在该章具体段落中的出现情况如图4所示。
  点击人物在215章中首次出现的节点,即可于标引系统中Book:5;Chapter:215;Page:48;Para.graph:656;Sentence:1位置检索到句子:“过了七七四十九天,阿达娜姆的灵魂到了生死沙山山口,此时阎罗王已经感应到了有个非同寻常的人到了地狱中来”.说明与阿达娜姆相关的情节发生的地点转到了地狱。由“阿达娜姆”在本章的密集分布,推测后续有大量情节与其相关,点击查看本章其他节点,可知故事围绕阿达娜姆在地狱接受审判展开,验证了推测。若想完整了解史诗塑造的人物,则可定位到其在全文中其他章节的节点,获取人物身份、关涉情节、人物结局等相关信息,通过直观观察和便捷的检索交互即可较清晰地梳理出人物发展脉络。
  在地域与宗族主题中,我们选择“财宝城”为例进行分析.根据图5所示的可视化分布结果来看.主题词集中出现的位置大致在第100~110章,并且其词频在最后出现的章节激增。
  选中财宝城的出现区域并放大,可清晰查看到其出现位置和次数,如图6所示,可知第108章是主题词出现的核心章节。
  点击查看主题词在第108章的段落分布情况如图7所示,主题词在该章节中的分布具有显著的规律性,出现段落中的词频数量均衡,而且前半部分的出现间隔差异较小。
  通过点击段落分布图节点,定位到该章节中的具体句子.发现财宝城在第108章中Paragraph:4599 Sentence:1、Paragraph:4607 Sentence:1等7个位置的句子内容均为“请攻下大食财宝城”,一方面揭示了本章情节以攻打城堡为主线:另一方面也由主题词所在的唱词部分体现出史诗文本说唱体的特点。
  根据以上可视化主题自动标引结果可知,单一主题单个主题词的可视化在揭示主题词分布规律和主题词在章节中的重要性方面效果显著,与其对应的主题自动标引在深入揭示主题词相关的文本内容、故事情节、人物发展,甚至文本语言特点等方面都有良好表现。
其他文献
美军观察组  1944年夏天,由21名中外记者组成的西北观察团来到延安。随后,美军观察组也来到延安,组长由美国驻华使馆的武官包瑞德上校担任。美军观察组的职责是搜集共产党获得的日军情报,了解共产党军队的情况和营救美军飞行员等。包瑞德在担任美军观察组组长之前,就已经会说一口流利的中国话,成了一名中国通,但他对延安总是充满着怀疑和挑剔。  当时,贺龙特意将陕甘宁晋绥联防军司令部一批条件较好的石窑洞腾出来
摘要:[目的/意义]社会化商务是一种联系了社交功能以促进商务活动的新兴模式,探讨影响用户信息披露的因素,有助于企业的稳定发展。以两种情感——隐私担忧焦虑与隐私冷漠为中介,探究人格特征对信息披露意愿之间的关系。[方法/过程]选取社会化商务的用户为研究对象,通过网络问卷的方法收集360份有效数据,采用偏最小二乘法对研究模型进行验证。[结果/结论]隐私担忧焦虑和隐私冷漠是信息披露意愿的强影响因子;不同人
〔摘 要〕目前很多学者利用RSI,AI,RCR,Specialization Intensity Index等指数从论文数量,引用次数,篇均引文量等指标分析某一研究国家(机构)学科排名情况。本文通过对学科科研绩效评估指数的文献回顾,分析了RSI,AI,RCR,Specialization Intensity Index等学科绩效评价指数的适用性和不足。研究结果表明:在开展影响力评价时,学科绩效评估
〔摘要〕高校图书馆信息资源共建共享是高校图书馆现代化建设的重要内容,但在实际构建过程中存在诸多问题。本文以建设山东省高校图书馆联盟数字信息资源共建共享的分析为例,提出了构建高校图书馆联盟信息资源共建共享的设想。  〔关键词〕联盟;共建共享;信息资源;高校图书馆;联合  收稿日期:2011-03-25  作者简介:马晓雯(1966-),女,馆员,研究方向:图书馆,发表论文数篇。  DOI:10.39
基金项目:本文系江苏省教育厅2012年高校哲学社会科学研究基金项目“高校图书馆服务于科研诚信体系建设的模式研究”(项目编号:2012SJD870009)研究成果之一。  作者简介:张群(1976-),女,副研究馆员,硕士,研究方向:科技查新、信息服务,发表论文20余篇,参编著作4部。信息咨询与服务  〔摘要〕介绍了立项查新与成果查新的概况,分析了两者的相通性,然后从查新的目的、作用的项目周期、语言
摘 要:[目的/意义]针对新型冠状病毒肺炎疫情防控的应急情报服务模式进行研究,为国家应对突发事件的决策和处置提供借鉴和参考。[方法/过程]首先简要比较了应急情报服务模式与传统情报服务模式的区别,并通过疫情防控实践来分析应急情报的服务作用,在此基础上构建了基于重大疫情防控的应急情报服务模式。[结果/结论]应急情报服务模式是通过对大数据环境中与疫情相关的数据和信息进行收集、分析、解读与存储,并通过合理
25年来,枫叶教育集团始终秉承“中西教育优化结合,实施素质教育”的办学理念,致力于不分种族、肤色、国籍,为所有受教育者提供一流的教育服务。  在不可逆转的全球化潮流中,教育与国际接轨亦是大势所趋。党的十八大以来,随着教育对外开放的蓝图逐渐清晰,加快和扩大新时代教育对外开放成为了教育发展与国家建设的需要,在新时代中国对外开放的政策推动下,“教育对外开放”既迫在眉睫,又恰逢其时。在这一过程中,国际学校
美国对中国的战略偏见,屡屡导致美国对中国的战略误判。二战结束后的70年来,美国对中国的重大战略误判就有六次之多。  第一次误判:  共产党和国民党,谁能赢得中国?  二战结束前后,中国的第一个问题是:国民党和共产党,究竟谁能赢得中国?而在这个问题上,美国的战略误判,导致其作出“扶蒋反共”的错误决策。  当时,美军驻延安观察组向美国国内提供了大量军事、政治报告,他们在报告中指出:“共产党由于得到当地
〔摘 要〕ESI学科科研绩效评价不仅需要对现有的数据分析,更需要从历史性的数据和连续性的数据中找出学科发展规律。Incites数据库作为科研绩效分析工具,在ESI学科评价分析中具有举足轻重的作用。本文分析了Incites数据库的连续数据对学校ESI学科进行动态性评价和持续追踪分析的重要意义,并提出了如何使用纵向维度与横向维度动态数据以及同类机构差异化数据实现ESI学科动态性评价和持续追踪分析。  
[摘要]随着竞争全球化的加剧,技术竞争情报在服务于各国企业发展的过程中起着不可替代的作用。以智能手机领域为例,选取华为、中兴、苹果、诺基亚、索尼、夏普、三星、LG等八大企业分别作为中国、美国、日本、韩国的智能手机代表厂商,通过专利计量分析和信息可视化技术对德温特专利检索数据库中的专利文献数据进行分析。通过分析技术竞争情报,探测企业关注产业技术发展趋势和新兴技术、突破性技术,进一步识别技术的机遇和威