大规模文献的内容挖掘与影响力分析

来源 :天津大学 | 被引量 : 0次 | 上传用户:leaf678
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
单篇文献以及文献群组的评价在机构排名、学者评价、文献检索等方面非常重要。在对单篇文献影响力评估上,目前的评价一般建立在被引数量或者对引文网络的分析上,忽视了引文质量和引文主题信息,导致对文献评价不全面;当评估文献群组的影响力时,目前的评价一般建立在发表的论文数量或者平均被引量上,忽视了不同群组的内容信息,评价指标较单一。本文在分析现有的单篇文献影响力评估与文献群组影响力评估的不足的基础之上,基于对单篇文献以及文献群组的内容挖掘,提出了新的单篇文献评估指标以及文献群组评估指标,并分析了单篇文献与文献群组的影响力。本文主要工作:1.单篇文献内容挖掘与影响力分析。首先,对于单篇文献,本文进行了引文挖掘和主题挖掘。引文挖掘方面,本文基于引文信息挖掘衡量引文质量,引文信息包括引文描述长度、参考文献提及次数以及参考文献在文中出现的位置,即出现次数越多、引文描述越长、位置越重要的参考文献对施引文献的影响力越大。此外,基于对引文数量的分析,受深度学习中预训练和微调的启发,本文首次提出预排序和微调,改善现有评价指标计算方式。主题挖掘方面,本文使用LDA模型对文献进行主题挖掘,并使用基于主题词向量的主题向量计算文献的领域相关性。其次,基于引文挖掘和预训练-微调策略,本文提出了一种新的基于引用的论文评价指标(CPI)。基于主题挖掘,本文定义了论文在深度与广度上的影响力,从施引文献和被引文献的领域相关性角度出发,分别提出聚焦指数(FCPI)和发散指数(DCPI),本文提出的方法不需要人工划分研究领域。基于上述指标,本文分析了CCF AI类单篇文献的影响力。2.文献群组内容挖掘与影响力分析。对于文献群组影响力,除了利用单篇论文的影响力统计量直接作为群组影响力,本文挖掘群组之间引用关系并受对外贸易依存度的启发,提出了学术依存度,用以描述任意两个学术群组之间的引用影响力。本文基于上述指标分析CCF AI类文献群组影响力。除了AI类文献,本文对数学文献中数学描述进行文本分类,分类结果应用于不同分支的跨分支分析,包括比例分析和依存关系分析,用来研究不同数学分支群组文献的影响力。本文是首次对数学描述文本进行挖掘。首先,从数学教材中直接抽取数学描述语句,以训练有效的分支分类模型。基于分类模型,可以获得文献中用到的数学分支。其次,本文从数学期刊中收集整理了一个相对较大的语料库作为分析数据。利用训练好的分类模型对分析数据文本分类,分类结果随后用于量化不同分支之间的关系并进行比例分析。最后,分析了不同分支之间的逻辑依赖关系,得到了各分支之间的依赖链。
其他文献
在微分几何中,K¨ahler曲面上全纯曲线的存在性是一个基础性问题.为进一步研究这个问题,产生了辛临界曲面这一类特殊辛曲面.本文先介绍了辛临界曲面的相关概念,之后研究了在三种不同条件下的辛临界曲面,即:复二维空间形式中平均曲率向量模长为常值、曲率椭圆是圆以及法丛平坦且高斯曲率为常值的辛临界曲面,分别在第二、三、四章进行阐述.最终,我们得到辛临界曲面在这三种条件下均为极小曲面,即表现为辛临界曲面的刚
学位
布朗运动一直以来是流固耦合领域的经典问题,其广泛应用于生物及物理领域。本篇文章采用了随机欧拉-拉格朗日方法研究杆状颗粒在流体中的扩散行为,其中粗晶微结构的自由度与连续随机场耦合,以捕获流体动力模式的弛豫和热涨落。利用三维水动力相互作用研究了单根杆和多根杆的扩散特性。分别在不受限空间与受限空间下讨论了这两种情况。对于单根杆,通过与实验结果的比较验证了均方位移的正确性,在实验室框架内,方位角和极角的概
学位
<正> 失眠是内科最常见的症状之一,约占神经内科门诊病人的50~60%。以往对失眠症多采用安眠药、理疗及针灸等多种方法治疗,疗效不甚满意。我院自1980年以来,采用中西药分组治疗,对246例失眠症进行疗效观察。现将观察结果报告如下。临床资料一、资料来源 246例中222例为门诊病人,24例为住院病人。二、病例选择 (1) 各种病因引起的失眠。(2) 病程在1个月以上。(3) 坚持治疗1个疗程以上者
期刊
国防技术的评估与预测是国防科技体系研究的基本问题之一,这也是优化国防科技体系结构和论证技术发展的重要依据,对今后国防技术战略的规划具有重要参考价值。本文对国防科技体系的基本概念进行了界定,详细分析了其基本要素和体系结构。全文都以无人系统技术领域的论文作为数据源,贯穿计量分析、评估以及预测的研究,提出了基于机器学习和复杂网络的技术评估模型以及基于生命曲线的技术预测模型,这些模型对于掌握技术发展态势、
学位
试验设计是数理统计学中最重要的分支之一.相较于耗时耗力的传统实体试验,计算机试验具有快速高效的优点.对于计算机试验而言,人们常会选取将设计点均匀填充在设计区域中的空间填充设计来提高模型的精度.典型的空间填充设计有均匀设计,拉丁超立方体设计等.最大最小距离准则和正交性准则是衡量设计好坏最常用的两个准则.最大最小距离设计和正交设计已经在计算机试验和实体实验中广泛流行,但相较于正交设计,最大最小距离设计
学位
最优化问题是人们在工程技术、科学研究和经济管理的诸多领域经常遇到的问题.随着数学理论与方法向各门学科和各个领域的广泛、深入的渗透,为实际生活中的优化问题建立数学模型,求解最优策略越来越受到重视.然而实际问题常常包含不确定性,不仅给问题的建模与求解带来直接的困难,同时使得规划方案的风险成为一个必须考虑的因素.因此,如何处理这些随机参数、建立考虑风险的模型并设计有效的算法,成为数学与其他学科交叉研究领
学位
在实际工程中,带有结构记忆的偏微分方程模型是十分常见的。其中,记忆项的出现会影响系统的渐近表现,进而严重影响系统本身具有的性质。通过查阅以往的相关文献,我们发现粘弹性系统中普遍存在着结构记忆,而且当记忆核函数在定义区间内具有单调性时,系统是适定的且渐近稳定的。记忆核的单调性要求,显然对研究问题的范围带来局限性,因为许多实际问题中记忆核函数并不具有单调性。因此,本文将研究带非单调记忆核函数波方程的适
学位
求解有理系数线性差分方程的有理解是符号求和中的重要问题,并有广泛应用。解决这类问题的一个关键步骤是计算有理解分母的界,在获得分母界后,就可以将求有理解的问题简化为求多项式解的问题。Abramov提出了寻找线性差分方程有理解万有分母的首个算法,其后很多学者在Abramov算法的基础上对线性差分方程以及类似方程及方程组有理解的万有分母进行了深入研究。Hou和Mu在一阶线性差分方程的情形下改进了Abra
学位
本文主要研究了两类不同的次线性条件及一类新超线性条件下阻尼振动系统-x=g(t)x+f(t,x)周期碰撞解的多重性问题.首先,通过广义非光滑鞍点定理及吴鲜和王少敏[1]建立的证明零点集孤立的新方法,分别在两类不同的次线性条件下得到了阻尼振动系统-x=g(t)x+f(t,x)周期碰撞解的多重性结果.这两个结果说明文章[1-5]中需要的条件“f≥0”可以弱化,且先前一些文章[2-6]中“用F(t,x)
学位
时滞是实际工程问题中一种普遍存在的现象,一般来说,它存在会影响原来系统的性能。找到合适的反馈控制律来消除时滞带来的不利影响,一直是学者们研究的热点和难点问题。对于边界输入带有时滞的分布参数系统的镇定问题,主要的特征是控制输入算子无界,同时边界观测算子也是无界的,这就为设计控制器镇定时滞系统带来根本性困难。在系统是适定与正则的框架之下,本文引入了一种新的状态预估器,据此提出了一种实用的控制律。通过引
学位