【摘 要】
:
随着科学技术的发展,文献数量急剧增多,在大量文献中,作者重名现象不仅会降低检索的效率和准确度,也会影响知识检索与调研工作的进度,因此对重名作者的消歧工作迫在眉睫。为了提高重名作者消歧的准确率,本文提出了一种基于人工神经网络的消歧算法,神经网络模型具有强大的非线性映射能力,可以对多维复杂问题进行分类预测。具体的研究内容包括以下几个方面:(1)文献数据集的构建与特征选取依据。本文首先给出文献记录的获取
论文部分内容阅读
随着科学技术的发展,文献数量急剧增多,在大量文献中,作者重名现象不仅会降低检索的效率和准确度,也会影响知识检索与调研工作的进度,因此对重名作者的消歧工作迫在眉睫。为了提高重名作者消歧的准确率,本文提出了一种基于人工神经网络的消歧算法,神经网络模型具有强大的非线性映射能力,可以对多维复杂问题进行分类预测。具体的研究内容包括以下几个方面:(1)文献数据集的构建与特征选取依据。本文首先给出文献记录的获取方式以及数据集的形成过程,其次依据不同属性特征对于重名作者消歧具有不同的影响程度,通过相应算法选取消歧能力较强的属性。测试结果表明Email、合作作者、期刊、研究方向、单位、英文名、毕业院校、邮编具有较好的区分效果。分析特征的属性对改进消歧算法和提高作者识别准确度及效率有一定的指导作用。(2)基于Beta分布动态惯性权重的粒子群(Particle Swarm Optimization,PSO)算法。传统PSO算法容易早熟收敛至局部最优,不具有突变跳出局部陷阱的能力。为此,本文提出了基于Beta分布的惯性权重,采用随机策略动态调整权重的大小,以提高算法全局搜索的能力,实验结果证明,改进后的PSO算法平均收敛结果更好,也为进一步优化神经网络打下基础。(3)改进PSO算法优化BP(Back Propagation)神经网络模型。PSO算法具有快速收敛特性,可以为BP神经网络训练出一组较为接近真值的初始权值和阈值。首先利用改进后的PSO算法优化BP神经网络的初始权值和阈值,之后使用优化好的初始权值和阈值继续训练BP神经网络模型,经过多次反向传播迭代过程,最终得到一个在测试集上表现性能最佳的模型。(4)实验结果对比与分析。在同一测试集上,将本文采用的基于BP神经网络的消歧方法与基本特征合集的文本聚类算法、字符串模糊匹配算法、稀疏特征分类算法、基于均方误差邻接矩阵聚类算法进行比较。实验结果显示,本文采用的算法在重名作者消歧问题上的表现性能有所提高,消歧结果的准确率达到了 88.4%,验证了算法的有效性。
其他文献
本文研究串联系统的寿命分布,利用混合分布刻画元件受到多因素影响的条件下的寿命.其中,串联元件的寿命独立同分布,串联个数服从离散分布,则系统的寿命服从一类新的复合极值
氢能是一种理想的可替代化石燃料的清洁能源,它具有能量密度高、反应产物无污染等特点。而氢气的制备、储存和运输目前都面临着较大的成本和技术难题。二甲醚是一种理想的制
伴随着“互联网+”时代的发展,科技发展的影响力逐渐延伸至教育行业,诞生了全新的教育教学方式——线上课程。这种以互联网为主要传播媒介的教学方式因为其时间与空间上的自由性,得到了众多学习者的追捧。特别是在2020年年初的新冠肺炎疫情期间,线上课程的无接触式教学更是被全国中小学、高校和教育机构所采用,成为国民级的教学现象。但是作为一种仍在发展中的新生事物,线上课程以及线上课程平台也存在着诸多缺点。以近两
高校大学生作为庞大网络民众群体中的主力军之一,正处在长知识、对新鲜事物最热衷的阶段,喜欢发表意见,也勇于公开表达自己的态度立场。挖掘大学生的关注点有利于进一步了解大学生的所思所想、所急所盼,尽早发现带有苗头性、倾向性的问题。为了尽早地解决矛盾问题,应进一步加强高校管理者决策的针对性和主动性。因此,建立高校大学生关注点识别及情感分析系统势在必行。本文在分析国内外高校大学生关注点及其情感分析的基础上,
全球化、科技创新给我国经济带来重大发展机遇,但同时也加剧了市场竞争的激烈程度以及环境不确定性,高速高收益的经济发展背后隐藏着高风险。为加强社会各界对风险的防控意识,2015年中央经济工作会议将“去杠杆”列为供给侧改革的五大任务之一,而强调通过低杠杆率获取债务柔性正是企业财务柔性研究的一大分支。因此,越来越多的企业不断重视财务柔性储备。财务柔性储备是指企业持有适度内部现金流水平和具备剩余举债能力,能
近年来,随着大规模集合电路,微电子技术,大规模互联网络的飞速发展,人们对网络的拓扑结构要求越来越高.图的理论及其在各个领域的广泛应用越来越受到数学界和其他科学界的重
目的:通过从遗传学的病因角度来研究望诊中大鱼际掌纹特应征这一体征与哮喘疾病的联系,以求为哮喘的重要中医病机“肾虚质”寻找现代医学遗传学病因的依据。方法:研究对象被分为3组,其中病例组共400人,根据对研究对象的症状体征观察分为:病例组A(已确诊哮喘患者+大鱼际掌纹特应征阴性)、病例组B(已确诊哮喘患者+大鱼际掌纹特应征阳性);对照组(正常人)200例,共600例。取研究对象的外周静脉血为测试样本,
无中心式协同网络系统已在现代信息系统中获得了广泛的应用,这类应用中的个体通常广泛分布在复杂的环境中,通过个体之间的信息交互来共同完成系统的任务。而当这类分布式系统
页岩气压裂形成复杂缝网是获得压裂高产的关键因素之一。针对永川地区储层缝网特征研究表明,该区岩石水平两向地应力差值较大(7.3-25.4MPa),破裂模式以张性缝占主导,总体倾向
据统计,仅在2011年3月到9月的7个月之间,国内不同省市由于校车不够规范、校车司机不合规、没有配备校车监管人员等各种不规范不合理情况的发生,导致校车安全事故频频发生,因此国家立法要求中小学生采用符合安全规范校车入学。同样地,政府提倡发展公平而有质量的教育。当前在校车成本分摊问题由于没有考虑到接送点学生位置差异和接送点学生数量不同,导致由于校车不公平不合理分摊校车费用情况,使得中小学生家长存在普遍