基于文档嵌入和引文分析的学科主题分析

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:qiyesoft
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着知识爆炸性增长和学科体系日益复杂,如何有效地从海量文献中挖掘学科主题以及分析其演化模式成为一个值得深入探究的研究课题。解决这一问题,对理解科学的结构和发展,以及制定科技政策具有重要意义。然而,现有研究多聚焦于“常态科学”的内容演化分析,而对学科主题的爆发式发展模式关注甚少。并且,常见的主题发现与内容演化分析方法往往忽略文献的语义信息且未能结合文本挖掘和引文分析各自的优势。针对上述两方面存在的局限,本文开展了相关研究。在探究学科研究内容的演变方面,本研究提出一种基于文本嵌入的主题演化分析方法。首先,利用Doc2Vec挖掘文献的语义主题特征,依据文献间的语义关联构建网络并使用社区发现算法探测主题结构,这样便实现了在语义层面发现学科主题。在此基础上,借助UMAP绘制领域地图并以关键词词云图进行主题内容标注,从而可视化主题间的结构。同时以密度等高线刻画文献分布的异质性,分析主题内的层级结构。最后,根据相邻阶段的主题间引用关系构建主题演化冲积图,以最大引用强度准确识别演化主路径。所提方法在机器学习领域识别出十二个全局主题以及“岛屿型”、“多山头型”和“星系状”三种主题“地貌”。然后利用冲积图清晰地展示了各个主题的生长、消亡、分裂和融合的演化现象。结合关键词和主路径分析,进一步揭示了近20年来机器学习领域的发展历程。实验结果表明,该方法是现有学科主题分析方法的有益补充。在探究学科主题的爆发模式方面,本研究提出一种无参数的、基于量化引文曲线爆发程度的主题爆发模式识别方法。主题爆发模式刻画的是某些主题在出现数年后才迎来影响力高速攀升的特殊发展情形,这种爆发式主题往往会推动该领域产生重大内在变革。首先,本研究以主题历年的被引频次作为度量指标,并设计了“去泡沫化”方法用以解决引用膨胀问题。接着提出爆发系数,即通过计算主题的实际引用曲线与理想引用曲线的差距来衡量主题爆发特征的大小。然后将引用曲线突变年识别为主题爆发年。实证分析发现,计算机科学领域存在大量的睡美人文献和主题爆发模式,如“Topic model”主题和“Mobile computing”主题的发展模式呈现较大的爆发特征。通过分析主题在爆发年前后研究内容的变化,并探究主题的被引多样性与其爆发程度的相关性,本研究发现主题爆发的主要因素在于主题自身取得了重大的创新突破或出现了新兴研究方向。本研究一方面提出了一种综合Doc2Vec、UMAP和引文分析的学科主题与演化分析方法,另一方面关注了“睡美人”现象背后的主题爆发模式并提出识别方法,进一步在方法以及实证分析层面加深了对当前学科演化和学科发展模式的探索和理解。
其他文献
蓄热电暖器可以利用夜间低谷电价较为廉价的电能转换为热能,在用电高峰期将储存的热能持续释放,达到对室内供暖的目的。这种工作方式可以平衡电力负荷、节约经济成本,同时使
开源代码一直以来因具有成本低廉,使用方便等优势,备受软件开发人员及企业的青睐,随着近年来GitHub等开源代码托管平台的兴起,开源代码在软件开发过程中所占的比重与日俱增。
含盐废水由于其成分复杂多样,盐分高,对微生物生长具有较强的抑制作用,该类废水处理技术难度远比普通污水处理要大得多,是目前难处理的废水之一。本论文主要研究盐胁迫条件下微生物驯化过程中投加甜菜碱、KCl、海藻糖对驯化处理废水效果的影响及特性研究,通过对此三种不同调节剂的多周期对比试验,得出各调节剂对盐胁迫条件下微生物驯化的影响及驯化处理废水效果的变化规律,获得了各盐度条件下的最佳调节剂。本文主要得到以
对于自动驾驶系统而言,准确、实时的道路检测算法是其核心技术。道路检测算法的基本原理为:通过固定在车辆上的摄像头拍摄车辆周围的环境,然后利用传感器对这些环境信息进行
针对山区营运高速公路边坡稳定性及运营安全问题,本文依托安徽省G35济广高速公路岳潜段(岳西~潜山)的岩质路堑边坡养护工程,在充分考虑边坡稳定性影响因素的复杂性和不确定性的情况下,以风险管理理论为基础,利用CRITIC法、博弈论组合赋权法以及云模型等方法分析评价了山区营运高速公路岩质路堑边坡稳定性风险,从而为科学合理地解决实际边坡稳定性风险评价问题提供了一种有效方法。(1)通过查阅国内外边坡稳定性风
NAND闪存凭借其读取速度快、低功耗、体积小等优势,已广泛应用于各类电子产品和数据存储中心。但随着多电平存储技术的应用和半导体工艺进一步缩减,闪存存储单元间及单元间距进一步缩小,大大加剧了闪存单元间的干扰,直接影响NAND闪存的存储可靠性和使用寿命。目前,先进的LDPC差错控制码、信号预处理和信号后补偿处理技术已用来进一步提升多级电平NAND闪存存储的可靠性,但在低时延应用场景,需要进一步优化译码
随着无线通信技术的发展,多天线、先进编码等技术的使用使得系统的谱效率和可靠性得到了极大的提高。但是,越来越庞大的用户群势必带来更加严重的用户间信号干扰。如何有效地
近年来,随着高清视频和超高清视频应用范围的逐渐扩大,对视频传输带宽和存储容量提出了更高的要求,利用上一代视频编码标准H.264/AVC压缩之后,仍然存在较多的冗余信息,迫切需
随着医学图像处理、生物医学技术、逆向工程、三维重建技术以及有限元分析等技术的提高与发展,计算机辅助技术已经贯穿于术前演练规划、术中辅助指导定位、术后恢复评估的全治疗周期里。而肝脏是人体除了皮肤以外最大的器官,肝脏疾病的多发性和难治疗性也困扰着医学工作者。本文针对肝脏血管分割困难问题,提出了一种分割性能优异的肝脏血管自动分割算法,该算法在OTSU动态阈值分割的基础下,结合统一化水平集分割算法进行优化
目的:本课题研究裙带菜多糖的提取、分离、纯化和基本结构的测定;研究裙带菜多糖的抗肿瘤及免疫调节作用;深入探究裙带菜多糖的免疫调节作用机制,为裙带菜多糖的综合开发利用奠定理论基础和科学依据。方法:裙带菜用水提醇沉法提取多糖,Sevag试剂除蛋白,冻干得到粗多糖。用DEAE Sephrose Fast Flow分离粗多糖,得到组分多糖UPIs 1-3,并用G-100进行纯度鉴定。高效凝胶渗透色谱法、离