基于网络表示学习的学者画像系统设计与实现

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:suibianlaila
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据技术在学术界的广泛应用,学术大数据已逐渐成为科研工作的重要数据依托,对其进行分析也成为一个重要的课题。学术科研的中心为学者,运用学术大数据为学者构建画像和引入机器学习算法为科研创新工作提供各类服务已成为当前的热门研究方向。该项目依托于本人实习单位的实际课题,课题主要基于学术科技数据搭建开放创新平台。本论文主要研究在构建学术知识库的基础上,结合用户画像技术,完成学者画像构建、学者画像系统搭建和学者画像在平台中的具体应用。首先,为了打通现有学术平台间的数据隔离和数据质量问题,系统尽可能从各个来源获取学术数据,融合了第三方合作机构数据库、公开学术数据集和高校学术主页三个来源的数据,并对学术数据进行清洗和规格化操作,以提高后续分析的准确性。基于此,本文设计了学者数据收集模块和元数据管理模块,以便于数据监管,构建完备的学术知识库。其次,参考现有用户画像的构建思路,本文从人口统计学角度生成浅层维度学者画像,运用文本挖掘、网络表征学习方法生成深层维度学者画像。浅层维度画像包括:学者基本信息卡片、学术成果统计、学术成果作品集和各类学术关系图谱。深层维度画像包括:学者研究热词和学者表征向量。为了获得更具有代表性的学者向量,本文引入网络表示学习算法,构建学者学术文本信息和合著网络,以学者为节点,通过节点文本特征并最大化节点邻接结构和网络全局的互信息,获取更高阶的节点表征作为学者表征向量。系统通过标签管理模块对画像各个维度进行定义,对数据进行统计和计算,并设置有标签版本记录和历史回溯功能,使标签能够更好地适配不同阶段的学术知识库。学者画像定制模块支持对单个学者的不同画像进行查询,便于及时调整画像数据和画像构建方法。再次,本文介绍了学者画像在平台中的运用,包括学者搜索分类、感兴趣的学者推荐、学者学术主页生成。其中学者干预模块可以对学者搜索结果进行人工调整,通过指定检索词结果中部分学者的权重,修改其排名得分,以此来规避因数据误差等问题引起的学者检索结果偏差。最后,将以上模块组合并搭建了学者画像系统,本人主要完成了系统的需求分析、数据库设计、详细设计和前后端开发工作,现阶段已服务于学术科技平台,并取得了良好效果,解决了数据隔离问题,获取了更具有代表性的学者表征向量,完成了学者画像在实际平台中的各项应用,使学者画像构建过程更为流程化。
其他文献
[目的]了解陕西省榆林市奶牛场牛病毒性腹泻病毒(BVDV)感染情况。[方法]从5家奶牛场采集156份血清样品,采用双抗体夹心ELISA方法进行BVDV抗原检测。[结果]除1家未检测到BVDV,其余4家均存在BVDV感染,BVDV抗原阳性率0~6.38%,平均为4.49%(7/156),成母牛、犊牛、育成牛BVDV抗原阳性率分别为5.66%、4.44%、3.45%。[结论]陕西省榆林市5家奶牛场存在
期刊
本篇口译实践报告以作者负责的一项汉译英口译任务为研究语料,描述了作者在2021年卢森堡驻华大使参加第八届库布其国际沙漠论坛期间,陪同参观亿利科技园时担任口译工作的实践过程与心得。本研究报告以作者所做的汉译英口译内容为对象,分析了此次实践中出现的问题与不足之处,并且有针对性地对这些问题进行了探讨,总结出了应该使用的翻译策略和问题解决方法。本报告旨在为沙漠生态保护治理类的交替传译提供借鉴,促进内蒙古沙
学位
交替传译作为口译活动的分支,有着即席性和不可预测性的特点。因此,在这一过程中口译员的记忆力面临巨大的压力。口译笔记是对译员短期记忆力的补充,亦是交传中的基础技能。现如今,关于口译笔记的研究越来越多,但是其中以学生译员作为实验对象的研究很少,这是由于实验人数有限且实验设计复杂所致。为了更好的研究交传中笔记的作用,本文将研究重心放在了学生译员口译笔记特征进行了实证研究。尽管关联理论应用到口译领域已经很
学位
随着移动互联网的广泛普及,企业的营销推广活动已从线下逐步过渡到线上。推广平台成为宣传企业产品和服务,保持用户粘性的重要手段,通过助力和发奖,达到指数级吸引大量的用户、快速引流的目标,从而为企业和用户带来双赢。本文的推广平台以分布式架构为基底,在其上构建相互隔离的微服务,在架构设计上保持了平台运行的稳定性和容错性,在技术实现上应对了大流量和高并发的情况,为企业和用户带来稳定可持续的服务。系统采用了分
学位
随着数据仓库技术的越发成熟,数据体系俨然成为企业决策的重要依据。数据仓库是一种由多数据源组成、以查询为主的数据库。其数据来源的多样性以及数据之间依赖关系的复杂性,导致其元数据管理的难度增加。清晰地数据血缘关系展现,实现了数据的追根溯源,便于排查数据出现问题时的原因。并且利用已经构建完成的数据血缘关系,能够发送数据变更通知、实现表的重要程度排名,对提升数据质量与资源治理具有重要意义。目前业内对于数据
学位
随者口译研究的发展,近几十年来以来,越来越多专家学者开始关注口译质量。其中,对用户的期待及评价的研究己成为口译质量研究的一个重要组成部分。口译质量评估研究日趋系统化,科学化。相关研究,尤其是实证研究的发现和研究方法的发展对口译质量评佔研究,特别是听众期待与评估研究领域,具有重要的指导意义及探讨价值。本文主要采取实证研究的方法,由9名具有口译经验的学生译员及10名普通学生听众参加学生译员的模拟科技同
学位
牛病毒性腹泻(BVD)是一种以发热、腹泻、消化道黏膜糜烂、呼吸道感染、产奶量下降、怀孕动物流产和死胎为特征的急性、接触性传染病。本研究首先采用阻断ELISA和双抗体夹心ELISA方法对中国青藏高原牦牛主产区的牦牛血清样品进行牛病毒性腹泻病毒(BVDV)抗体与BVDV抗原检测,随后对牦牛接种BVDV商品疫苗进行免疫效果和免疫保护期的评估。研究表明,BVD在青藏高原地区牦牛群中广泛流行,牦牛血清BVD
期刊
随着全球化的速度不断加大,科技产品的发展方兴未艾。电子产品发布会是宣传科技产品最直接、最有效的方法之一。科技英语口译在电子产品发布会中扮演着不可或缺的角色。近些年来,越来越多的口译研究者从不同的角度对科技英语口译进行研究,但从语义和交际翻译理论视角对科技英语口译的研究较少。语义和交际翻译理论为科技英语口译的研究开辟了另一个新的视角。语义翻译和交际翻译是著名翻译家纽马克对翻译理论的主要贡献,这两种翻
学位
本文从框架理论(Frame Theory)角度,探讨汉英同声传译过程中的预测策略(anticipation strategies)。由于同传具有原语只说一遍的特点,因此预测策略是十分有必要。长期以来,学界从释意理论、图式理论、关联理论、认知负荷模型等方面讨论了同传中预测策略的使用,但其中对于预测策略的认知因素仍需进一步研究。框架理论是认知语言学中重要组成部分,框架是人类经验进行连贯组织的一种有结构
学位
本次口译实践是一次英译汉口译任务。本实践报告以作者在恼包村的口译实践为基础分析了作者作为译员在本次口译实践中的表现和存在的问题。作者共记录了200分钟的口译实践将其转录成文本,以此撰写了这篇口译实践报告。实践报告以作者本次口译活动为研究材料,从口译任务描述、口译过程描述、口译案例分析和口译任务总结四个部分进行说明。作者在口译实践中,遇到的难点包含两个方面:词汇层面和句子层面。词汇方面主要是文化负载
学位