融合主题词嵌入和网络结构分析的主题关键词提取方法

来源 :数据分析与知识发现 | 被引量 : 0次 | 上传用户:lllll15
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
【目的】构建一种更加准确的主题关键字提取模型,从词向量与主题模型相结合的角度出发解决词频较小主题相关度较高词语发现的问题。【方法】提出一种融合主题词嵌入和网络结构分析的主题关键词提取方法,利用LDA主题模型进行主题关键词的初步提取,利用Word2Vec训练词向量,利用词向量相似度传播构建关键词网络,利用网络结构分析方法对主题词进行二次提取。【结果】实验结果表明,本文所提方法使得主题关键词之间的平均相似度提高14.75%,同时,在相同主题下的关键词比较中,本文方法相比LDA模型能够更准确地发现低词频高主题相关的词。【局限】样本数量有限,分词处理过程需要过多的人工参与,未对主题关键词提取结果进行深入的量化分析。【结论】融合词嵌入和网络分析方法进行文档主题关键词提取,能够有效发现低词频高主题相关的关键词,为摘要提取、舆情分析等研究提供新思路。
其他文献
滑模摊铺机施工是集约化现代施工方式,在机场的滑行道和站坪的施工中,与人工作业相比,具有施工速度快,摊铺的动态平整度好,抗折强度高,密实度好,需要的人工少,工人的劳动强度
我国的石油资源十分短缺,随着国民经济的持续快速发展,我国对石油资源的依赖程度也随之加强。因此,在我国现有石油资源的基础上,研究如何有效利用石油资源,促进经济的可持续
本文写作的立意是在生态伦理学的框架内阐释生态学马克思主义生态伦理观的主要内容。生态伦理学从价值观的角度对近代的理性传统进行批判,却没有从社会制度的角度对于人与自然
没有文化,历史上不会有永存的事物。历史和文化是地域的灵魂,是一个族群集体的记忆,是无形的根,无价之宝。北川大通是青海河湟先民的栖息地,也是河湟多彩文化的发祥地,承载着
大数据背景下,思维和技术发生了巨大改变,出版模式迎来巨大变革。出版行业大数据主要包括内容数据、运营数据以及用户数据三类。基于上述大数据,出版行业将促进精准营销、驱
本文以玫瑰带腋芽茎段和幼嫩叶片为外植体,对玫瑰组织培养进行了系统的研究。旨在建立可用于工厂化繁殖的玫瑰微体快繁技术体系,并为玫瑰的分子育种及相关研究提供技术支持。
把人工智能技术与医学检验相结合,设计了一个医学检验专家系统的原型,采用目前成功的产生式规则作为知识表示方法,应用不精确的推理机制,设计和实现了“检验项目意义分析”等6大
探讨了动态肺功能检测在支气管哮喘和慢性喘息性支气管炎鉴别诊断中的应用价值。回顾分析经动态肺功能检测确诊的支气管哮喘和慢性喘息性支气管炎患者的相关数据,绘制包括1 s
本文以管理用报表观作为研究基础,选取2008—2012年在上海和深圳证券交易所上市的630家制造业公司为样本,对我国制造业上市公司营运资本管理策略与企业盈利能力之间的关系进
通过对大型超市计算机综合管理信息系统的分析与研究,采用面向对象的程序设计语言作为开发平台,建立以局域网为中心的计算机环境,利用数据库应用系统,开发出功能强大、运行可