主题分析方法及其在文献管理系统上的应用

来源 :南京大学 | 被引量 : 0次 | 上传用户:ccc1A2B3C
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技不断进步,科研文献迅猛增长,新的研究方向不断涌现,如何有效对科研文献进行分类、管理、分析对科研人员和科技的发展都具有重要意义。传统的科研文献研究主要集中于文献主题分析、科研领域社交网络分析等,而从科研人员自身需求出发的研究工作甚少。本文利用机器学习方法来研究和分析科研文献,从科研人员本身角度出发,以主题模型、集成学习为基础,以科研文献为研究对象进行了研究和分析,设计实现了服务于科研人员的科研文献管理系统,主要工作如下:1.针对现有研究极少考虑科研文献类别不平衡的问题,提出了一种类别不平衡科研文献集成分类方法,该方法将主题模型与集成学习方法相结合,通过有放回采样的方式重构数据集,以及对多个弱学习器集成的方式提升主题模型的分类性能,并在真实数据集上验证了方法有效性。2.针对科研人员需花费大量时间和精力去发现学术会议的热点或发展趋势,提出了一种会议热点和发展趋势分析的学习方法,该方法将会议热点抽象为主题在关键词上的分布,利用相对熵捕捉研究热点随时间的发展趋势。通过对机器学习领域学术会议NIPS录用的科研文献进行分析,验证了方法有效性。3.针对现有文献管理系统中信息不准确问题,提出了一种自动获取具有高置信度信息的方法,该方法利用机器学习技术提取科研文献中的基本信息(如标题、作者等),并利用爬虫技术从互联网上获取科研文献信息与之进行相互验证,进而获取具有高置信度的信息,节约了科研人员的文献检索时间。4.为了实现上述研究工作,同时整合文献管理系统的基本功能,设计并实现了一个科研文献管理系统PubMS,为用户提供科研文献及科研项目的管理、查询、展示等基础功能,同时也为用户提供了科研文献推荐等辅助学习功能。该系统目前已在本研究所上线使用。
其他文献
人脸识别是模式识别和人工智能领域具有挑战性的课题之一,广泛应用于信息安全、金融安全以及公共安全,产生了巨大的经济效益和社会效益。但是,由于原始人脸图像的数据维度较
随着经济技术的快速发展,高层建筑越来越普遍,其数量之大,规模之大,是过去远远不可比拟的。高层的结构形式更加多样化,而在各种灾害面前也面临更高的风险,因此对高层建筑的安
海马体位于大脑丘脑和内侧颞叶之间,主要负责长时记忆的存储。海马体的体积及其功能的异常与很多精神疾病密切相关。因此海马体的准确分割,可以辅助医师对相关精神疾病进行诊
大数据时代,随着互联网技术的飞速发展,互联网上源源不断产生着大量数据,造成数据的爆炸性增长,这其中就包含大量的自然语言文本数据。文本数据是数据价值密度最大、最有利用
我们处在互联网的高速发展时期,计算机科学在生活中扮演着越来越重要的角色,人工智能AI(Artificial Intelligence),作为近几年计算机科学中最热门的分支,逐渐走进人们的日常
现代化的工业生产对机器人的运动稳定性和工作效率有着较高的要求,合理高效的轨迹规划可以改善工业机器人的运动性能,提高工业生产的自动化水平。目前,针对工业机器人轨迹规
铁基非晶合金因较好的软磁性能而受到研究者的持续关注。通过调控成分和改善退火工艺可以提高其综合软磁性能。但是调控成分有一定的盲目性和耗时性,退火则通常会引起条带变
目前关于车辆路径问题的研究,大部分内容以每个客户的需求只能用一辆车完成配送为约束条件;然而,在实际的城配物流车辆调度中,有些客户的需求量比较大,城配物流企业需要对这
粒子群优化算法(Particle Swarm Optimization,PSO)是模拟鸟群觅食行为的基础上提出群智能优化算法,是优化领域中新兴的分支。它具有实现简单、易于理解、控制参数少等优点。
随着悬索桥跨径的不断增大,吊索长度越来越长。悬索桥吊索频率低、阻尼小、质量轻,极易在风荷载、车辆荷载等作用下发生大幅振动,这将缩短吊索的疲劳寿命,从而对整座桥梁的安