基于LDA2vec模型的多源数据下科研热点识别研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:sdggertretfdhghdfh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息过载是当前互联网信息时代值得关注的一大问题,从海量信息中快速抽取、提炼出关键的信息就显得尤为重要。而科技文献作为科技创新知识的主要载体不仅增长迅速,且具有多源分布的特点,如图书、论文、专利与会议文献等作为主要的科技文献,其不同类型的特点使得它们提供了关于同一主题不同角度的描述。所以在科学研究中,从不同源的科技文献中识别挖掘科研热点对于开展下一步的科研工作具有指导意义。所以本文目的就是通过本研究提出的模型方法,对蕴含在多源文本中的主题进行更有效的识别以分析学科热点,为科研创新提供支撑服务。本研究首先采用文献调研法,辨析了科研热点和科研主题概念的基础上,对国内外科研热点识别的主要方法和主题模型的研究进展进行调研,针对具有代表性的研究成果进行总结与述评,梳理了当前进行科研热点识别分析时的专家法、引文分析法、知识单元分析法、图谱分析法和文本挖掘法五种方法,并对主题模型的理论探索现状和其在科研热点识别中的应用研究现状进行了总结。然后在此基础上基于模型研究法,提出一种基于LDA2vec模型的多源文本下科研热点识别的方法并针对科研热点识别构建模型,该方法融合了LDA主题模型对隐含语义挖掘的优势和Word2Vec词向量模型对于上下文关系把握的优势。同时为了验证本文方法的有效性,利用实验分析法、统计分析法等,以机器学习领域的科技文献为例,获取期刊论文和专利文献的题名及摘要数据进行融合以作为实验数据源,一方面利用模型困惑度(perplexity)和主题一致性(topic coherence)两个指标对LDA2vec与LDA在多源文本背景下的主题提取效果进行对比,另一方面对本研究的方法在多数据源和单一数据源的环境下主题提取效果进行观察对比。经过实验,结果表明本文提出的方法在面对多源数据情况下,进行科研热点识别挖掘是可行的且在一定程度上有效果的提升。该方法相对来说能够更加合理、准确地识别出多数据源文本中的热点内容,对利用单一数据源进行主题分析的不足进行补充,对多数据源融合的实践应用进行丰富。
其他文献
<正> 一、案情1989年4月,北京某能源研究所(下称能源所)与河北省某灯其厂(下称灯具厂)签订一份技术转让合同,合同约定,能源所于1989年5月31日前向灯具厂提交节能日光台灯的全
期刊
目的:为做好微生物实验室生物安全工作,评估实验室废弃物高压蒸汽灭菌效果进行初步尝试。方法:利用建立的一次性塑料琼脂平板废弃物模型,探讨不同灭菌时间、包装容器、包装方
灾害事件发生后,应急管理部门需要在最短的时间内派出各种类型的应急车辆赶赴事件现场进行应急救援。因此,确保应急车辆以一种快速、安全的方式赶赴事件现场具有重要的意义。
阐述发展京东板栗的优势条件,指出京东板栗生产中存在的问题,有针对性地提出应对措施,以期最大限度地提高京东板栗产量和质量及整体经济效益,增加农民经济收入。
警务车辆是警察进行执法的主要执法工具,加强对警务车辆的日常管理工作可以有效保障公安干警执法的及时性和有效性。本文主要针对警务车辆的日常管理工作展开研究。具体从建立
近期,通过代币发行如ICO等形式的融资活动大量涌现,投机炒作盛行,严重扰乱了经济金融秩序。对此,加强监管,对于整治市场乱象,保护投资者利益,严防金融风险有着积极意义。监管层更应
报纸
针对企业负债经营进行风险分析,从资本成本与资本结构、企业税赋与破产风险方面就企业负债经营的益处和债务风险进行了论述,讨论和分析了负债比率的合理确定以及资本成本、投
<正>我的女儿今天大学毕业,因此我对2007届毕业班以及他们即将步入的世界展开了深思。我不清楚他们如何称呼这一代人。称他们是"X"世代、"Y"世代、"零"世代还是"我"世代?不过
本文通过对重庆方言中单音节形容词的语用分析,以了解重庆方言形容词词性的改变、词义的增减以及组合的特点,并揭示重庆方言文化的内涵。
面临新的国际、国内形势,中国共产党作为拥有几千万人的大党,必须时刻牢记全心全意为人民服务的宗旨,弘扬党的优良传统和作风,跨越群众路线的新困境。由此,应当对于群众路线