基于文本挖掘和潜在狄利克雷分配的科学管理热门话题提取与预测

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:zhengjunzhe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
管理科学是一个广泛的跨学科领域。如果研究者们不了解新兴话题,在这个领域进行研究会非常具有挑战性。本项研究的首要目标是通过减少仅以确定管理科学领域当前热点问题为目的多次初步阅读,解决学者选择研究方向的困难。通过分析管理科学领域的出版物,研究将有助于确定热门话题,绘制管理科学中核心领域地图。学者一但开始一项研究活动,他们的研究在科学领域具有意义和重要性是非常重要的。本研究的第二个目的是通过提供基于已确定趋势的热度预测工具,来更好地定位学者的研究活动来满足学者的科研需求。因此,学者们可以根据个人兴趣和学术前景,明确研究管理科学领域的研究侧重点。因此,这项研究的重要性在于它将为科学管理领域的同仁提供一个热门话题框架,以便更好地指导他们的研究工作。他们将能够识别短期和长期趋势,熟悉并建立管理科学领域的知识框架。此外,它可能会激发他们对忽视了的话题的兴趣,揭示未来需要研究的话题。本研究的结果还将提供一个审评人员对管理科学领域的兴趣概况,有助于期刊等出版物的传播。这项研究的结果也可能有助于研究人员熟悉管理科学中的主题发展链。这项研究将介绍用于分析如科学出版物等的文件的各种技术,这些出版物可能会使读者获得该领域的知识。  根据许多其他学者谁在其他学科做的类似研究,文本挖掘方法在研究领域图谱是是有价值的工具。文本挖掘是处理结构化,半结构化甚至非结构化数据集(如文本文档)的特定类型的数据挖掘。文本挖掘是属于人工智能领域的一系列技术,它结合了语言学,语义学和语言学,统计学和计算机科学等领域。主题建模是文本挖掘的一种变体。主题建模方法基于的假设是:文档由主题构成,并且主题是基于词汇的分布。主题建模是一组统计方法,用于通过分析原始文本的文字来揭示贯穿整个语料库的话题。单个文本或文档可能包含多个主题。最流行的主题建模方法是潜在狄利克雷分布(LDA)。LDA是一个语料库的生成模型,其中文档是潜在主题的随机混合,其中每个主题的特征是词汇的概率分布。每个主题中概率最高的单词通常会对该主题的内容给出一个好主意。LDA在不同领域展示了在巨大信息和科学文献中确定隐藏结构的有效性,因此它是本研究选择的方法。  为了缩小研究领域,分析INFORMS数据库中包含的出版物是一个妥当的选择。INFORMS(运筹学与管理科学研究所)是运筹研究(OR)管理科学以及分析领域学者的国际性论坛。INFORMS与ES发布所有相关的管理科学领域的学术同行评议期刊。因此,为了更好地达到研究目标,我们对2008年至2017年的INFORMS的文章出版物进行了十年的分析。大多数先前的研究使用摘要或关键词作为出版物的代表。然而,标题,摘要和关键词是更好地描述文章内容的特征。本研究中的方法是首先收集INFORMS期刊上发表的研究论文的标题,摘要和关键词,然后应用具有潜在狄利克雷分布的文本挖掘技术以识别管理科学领域的热门主题。为了测试热度预测工具的性能,收集了来自不同科学领域(包括管理科学)的各种来源的20份研究论文摘要,以便更好地评估该工具根据相关领域或非相关领域论文工作来确定热度的能力。  开展这项研究的第一步是收集相关数据。使用网络爬虫来从Informs网站收集出版物元数据{标题,摘要和关键词}。共有6749篇研究论文,摘录自十年内(2008-2017)十二个学术期刊:《决策分析》,《信息系统研究》,《INFORMS计算学报》,《INFORMS教育交流》,《界面》,《管理科学》,《制造与服务运营管理》,《营销科学》,《运筹数学》,《运筹学》,《组织科学》,《服务科学》,《战略科学》,《运输科学》。收集出版物后,它们被存储在MySQL数据库中。下一步就是通过去除无价值的信息来清理数据。对收集的数据进行了四个主要操作:大小写字母统一,非字母字符移除,停用词移除,罕见字移除  LDA模型的一个重要输入是推断的主题数量。初步分析表明,12种主题可以保证模型质量。LDA模型的输入是词向量语料库,主题数量和一些调整参数。经过连续的训练,LDA模型帮助发现了管理科学学科的12个主题。主题0与交通规划和交通管理有关,主题1与线性规划有关。主题2与运营管理和决策系统支持有关。主题3与数字营销有关。主题4与组织行为有关。主题5与数学优化有关。主题6与决策有关。主题7与知识管理有关。主题8与服务运营有关。议题9与财务风险有关。主题10与供求关系密切。议题11与博弈论有关的。在这些话题中,话题0,话题2,话题4.话题7,话题9.话题10,对应于管理科学领域中的著名研究领域。其余主题是与用于支持管理科学研究的数学,计算方法和理论相关的一般主题,但也用于解决许多其他科学应用中的问题。对往期期刊的分布在LDA模型的结果进行分析,有助于发现2013年至今,金融风险,数字营销和运输计划及交通管理是热门话题。从2008年到2001年,热门话题是知识管理,服务运营和供求关系。从2011年到2003年,最热门的话题是组织行为。对这些主题及其相关期刊的进一步分析有助于发现类似内容的期刊,例如:《INFORMS教育交流》和《界面》都是教育相关;《信息系统研究》和《组织科学》。也被发现了具有独特内容的期刊《决策分析》和《运输研究》。发现的热门话题主要与以下期刊有关:《市场营销科学》,《信息系统研究》和《交通规划》与《交通管理》,也进一步证实了此前有关这些主题的研究的预测。  从LDA模型的输出结果中可知,构建的预测工具,将主题分配给新文档并预测热度。在该工具上进行的测试证实了它在分配主题,期刊和预测管理科学相关论文的热度方面的表现。遗憾的是,由于该学科的广泛性以及与其他学科的交织,该工具无法确定论文是否与管理科学有关。  尽管进行的分析的有一定的有效性,但也发现了一些研究的局限。数据集的大小并不能确保对管理科学中的所有出版物进行分析,因此,其他一些热门话题可能还没有被发现。进行的预处理步骤是自定义的,可能不完美。用不同方法对相同数据集进行的其他研究可能会导致不同的结果。  为了利用本研究并提升研究效果,可以在其他科学领域进行类似的分析。从获得的结果中,可以建立协作学术研究工具来帮助各学科的学者进行他们的研究。这个协作工具可以通过推荐热门话题以及领域专家。它也可以预测提交论文的热度,并最终建议出可以发表论文的期刊。  总的来说,这项研究已经证明了主题模型在发现潜在话题方面的有效性,它有助于发现管理科学领域的一些热点话题,并提出了一种帮助管理科学学者进行研究活动的工具。
其他文献
考察赵晓龙入党是在深山里。我们沿着崎岖的山路徒步走了一个半小时,来到铺着一排排参帘的集安市科委人参栽陪科研基地。一位戴着斗笠、裤脚高挽的“参把式”拿着参锄走来,他就
本文在对音乐的哲学诠释中遵从着两个基本方向:其一是强调音乐独有的内在自律性,其二是以不同的方式和出于不同的理由否定这一独立性.虽然马克思主义的理论家在“反映论”的
3月5日,朱鎔基总理在九届人大二次会议的《政府工作报告》中指出,今年国内生产总值的预期增长目标要达到7%。今年是实现国有大中型企业三年改革与脱困目标的关键一年,也是围
现代美学是现代性与现代文化悖论的表征:一方面,以工具、目的及技术理性为主导的现代精神极大地侵占着人文价值的存在空间;另一方面,以启蒙与自由为典型的高度自觉的主体意识
赫勒认为,作为一门独立学科的现代美学,是资产阶级时代的产物.美学在资产阶级社会里成为一种普遍哲学,并根据自身的体系推论出来的普遍意识形态和普遍理论的偏爱来评价和阐释
现代高科技产业的发展对传统产业改造起到了积极的促进作用,同时对中国的制造业结构的升级也起到了很好的优化作用。而高科技企业目前却面临着R&D人员过多流失的现状,这种现象
′95中国建筑装饰博览会在京举行 由中国贸促会建材行业分会,建设部建筑设计研究院、中国室内建筑师学会主办;北京凯奇新技术开发总 ’95 China Building Decoration Fair
教育部和国家语委于2009年1月12日和3月24日,先后联合发布了《汉字部首表》(简称《部首表》)《GB13000.1字符集汉字部首归部规范》(简称《归部规范》)《现代常用独体字规范》(简称《独体字规范》)和《现代常用字部件及部件名称规范》(简称《部件名称规范》)四份语言文字规范。这些规范文件,不仅适用于汉字信息处理、辞书编纂等方面,对汉字教学也有着重要的指导意义。  执行语言文字规范是小学语文教
与其他社会主义国家情况一样,在南斯拉夫,文化艺术是非常重要的政治问题,而马克思主义同时既是由共产主义者联盟所控制的官方意识形态,也是一个发出批评声音的领域.在南斯拉
马克思晚年的人类学笔记,彰显了他对人类社会研究从“人体解剖”到“猴体解剖”的走向,此种逆向探索蕴含了他所坚持的历史哲学方法论——历史唯物主义的辩证法.从研究人类社