【摘 要】
:
校友资源作为学校建设最重要的资源之一,在学校发展传承中有着其特殊而重要的作用,如何挖掘、整合与利用好校友资源是一个重要的课题。但由于人名具有歧义现象,直接利用互联网进行人名的检索往往得到大量非目标信息,为此本文试图利用人名消歧技术,完成对校友身份的确认。本文首先研究了层次聚类算法,通过文献计量与知识图谱的绘制,对近二十年层次聚类算法相关研究文献进行了分析,从发文趋势、文献的学科分布、作者合作情况、
论文部分内容阅读
校友资源作为学校建设最重要的资源之一,在学校发展传承中有着其特殊而重要的作用,如何挖掘、整合与利用好校友资源是一个重要的课题。但由于人名具有歧义现象,直接利用互联网进行人名的检索往往得到大量非目标信息,为此本文试图利用人名消歧技术,完成对校友身份的确认。本文首先研究了层次聚类算法,通过文献计量与知识图谱的绘制,对近二十年层次聚类算法相关研究文献进行了分析,从发文趋势、文献的学科分布、作者合作情况、以及研究热点与前沿等多个角度进行了细致的分析,为文本的算法改进提供了依据。随后本文对传统层次聚类算法进行了改进,基于分位数的思想提出了新的基于分位数的类簇间距离计算方法,用分位数区间内数据点间距离的平均值度量类簇间的距离,从而在一定程度上排除了离群点对聚类精度的影响,并提高了聚类的准确度,更适合本文的人名消歧与校友识别的应用场景。之后提出了基于改进层次聚类算法的校友信息识别模型,模型主要包括文本预处理、文本关键词的提取、文本特征向量的生成、人名消歧与校友识别四个模块组成。模型首先利用word2vec工具对网页文本进行文本表示与词向量的生成,基于均值word2vec思想对文本关键词词向量进行均值计算并将其作为网页文本的特征向量,从而克服传统文本表示模型数据维度过高的不足,用同样的方式对校友信息知识库中的校友关键词进行文本特征向量的生成获得校友验证文本特征向量用于聚类后校友类簇的识别,然后模型利用本文提出的改进层次聚类算法对网页特征向量进行聚类得到人名消歧结果,进而利用构建的校友验证本文特征向量进行校友信息的识别。实验结果显示本文提出的基于改进层次聚类算法的校友信息识别模型能够有效的对网页文本进行消歧与校友信息识别。
其他文献
太阳能是一种取之不尽用之不竭的可再生清洁能源,如何高效地利用太阳能电池,将太阳能转化为电能,成为工业界和科学界广泛关注的研究课题。近年来,钙钛矿太阳能电池(PSCs)的光电转换效率(PCE)已经由3.8%迅速提高到了25.2%。然而,有机-无机杂化PSCs的湿度稳定性较差,成为阻碍其商业化的一个主要因素。在传统的PSCs器件中,金属电极和空穴传输层(HTL)都容易受到水分子的侵蚀。此外,有机-无机
随着铁路货运改革的不断深入,铁路货物运输向现代物流转型工作持续推进。大连铁越集团通过改造原有铁路货场,建设大连铁越物流中心,以适应大连市物流发展需求和铁路货运改革发展趋势。但大连铁越物流中心在实际运作中仍存在着仓储设施设备不完善、作业区域布置不合理、作业流程不完善,作业人员效率低下等问题。本文针对上述问题,对大连铁越物流中心2号仓库仓储设施进行规划设计,并运用Ra LC(乐龙)仿真软件对其仓储设施
本文在对相关理论进行汇总和分析的基础上,分析了加工制造企业在薪酬管理过程中存在的共性问题和优化思路,并以A轮毂公司为案例,具体分析了A轮毂公司薪酬体系存在的问题,并为
贿赂犯罪,通常是行受贿双方在没有第三人在场的情况下发生的现金交易,其行为从发生到结束具有隐蔽性、复杂性和无痕性的特点,检察机关查办贿赂犯罪案件要面对线索成案率低、
台湾地区华语文教育硕士专业的培养目标是培养对外华语文教学人才,其专业性质为师资培训,学科归属教育学。本文选取了台湾地区具有代表性的“三校一班”作为样本进行深入分析
自1978年改革开放以来,中国的综合实力飞速提升,尤其是在1992年中韩建交之后,中韩两国的交流日益频繁,预示着商品化时代和城镇化时代的到来。中国朝鲜族的生活也发生了翻天覆
朝鲜王朝(1392-1902)以儒教立国,奉朱子学为正统。随着以"三纲五常"为核心的程朱理学在朝鲜半岛的深入传播,儒教伦理在朝鲜朝后期不断渗透到司法实践中,甚至作为司法断狱的根
自上世纪六十年代以来,语篇分析在语言学界受到越来越多的重视,而衔接理论在语篇分析中也扮演着越来越重要的作用。然而目前衔接理论在口译学的研究中却远远不足。而在交替传
研学旅行是一门能在开放情景中有目的、有计划、有组织的实现素质教育的综合实践活动课程,具有教学资源选择多样性、教学内容研究性、教学过程体验性与实践性、教学评价综合性等特点,是高中学生实现学校和户外教学目标的有效路径。高中地理课堂教学与研学旅行的融合实施能在有限的时间和经济支持下,以地理学科核心素养为依托,实现高中学生的综合素质发展。本文以湖南省湘潭县第一中学的师生及家长为调查对象,进行研学旅行活动的
水系锌离子电池因为成本低廉、能量密度高、安全性好和环保等诸多优势,成为近年来重点研究的下一代新型绿色电池。在其众多的正极材料中,锰基材料因其资源丰富、低毒性、低成本以及丰富的价态被认为是极具发展前景的锌离子电池正极材料。然而,锰基材料本身差的导电性和循环过程中体积的变化造成容量衰减,限制了其进一步的大规模应用。为了解决锰基材料存在的上述问题,本文以金属有机框架材料作为前驱体,通过热处理制备了Mn_