论文部分内容阅读
DOI:10.3969/j.issn.1008-0821.2021.09.016
[中图分类号]TP311 [文献标识码]A [文章编号]1008-0821(2021)09-0157-10
自2008年中本聪(Satoshi Nakamoto)发表《Bitc-oin:A Peer-to-Peer Electronic Cash System》以来,各界研究人员对其底层核心技术——“区块链”的探索和研究热情水涨船高,由于其“可追溯”“防篡改”等特性,它在其他领域的重要程度日益凸显。但在这种备受各界学者关注的情况下,王江等指出,虽然我国在区块链研究方面生产力占据世界第一,然而最具有影响力的区块链研究的来源期刊、论文、作者等都来自于国外,因此,把握国际学者对于该领域的研究现状及热点主题的演化,有利于我国的学者发现研究新趋势,学习和借鉴有益成果,为我国的“区块链”研究提供参考。
1区块链主题的相关科学计量研究及其不足
近些年来,学界有许多关于区块链研究现状、研究热点以及主题演化等方面的研究。Firdaus A等以Scopus数据库收录的2013—2018年的区块链相关文章为研究对象,运用文献计量的方法进行分析,发现最活跃的国家是美国,其次是中国和德国。Dabbagh M等分析了Web of Science数据库中2013—2018年的相关论文,指出了其主要学科分布包括:计算机科学、工程学、电信学、商学、经济学等。王发明等选取“CNKI期刊库”2015—2017年5月的论文,使用Cite Space可视化工具,从关键词、作者共现等角度,分析了我国区块链的研究热点,该研究认为我国区块链领域尚处于探索期,并且将热点主题概括为基础研究和应用研究两个方面。汪园等也运用Cite Space可视化工具,对2015—2017年的相关文献进行了分析,从文献类型(科普评论类、探索研究类)、期刊分布、学科分布等方面对区块链相关研究进行描述总结。花敏等通过对2015—2019年CNKI数据库和WOS数据库相关文献的对比分析,从发文量、高产机构等多个角度展开,该研究认为中国和美国是两个开展区块领域研究的主力国家,2015—2019年,我国在区块链领域发表的外文文章的数量始终高居榜首并迅猛增长。但是正如王江等的发现,最具有影响力的区块链研究的来源期刊、论文、作者等都来自于国外,所以本文以国际区块链研究为研究对象,分析其热点主题演化情况,以期为我国学者提供借鉴参考。
当前研究大多以科学数据库中的文献及引文数据为研究对象,特别是关键词,使用文献计量的方法及工具,特别是关键词共现分析,从作者、期刊及机构等角度分析区块链研究热点。但是题录数据中,摘要包含的信息没有得到有效的利用,仅仅靠关键词只能反映文章的大致方向,难以挖掘其隐含的语义信息。
LDA(Latent Dirichlet Allocation)主题模型能够很好地解决这一问题,通过抽取摘要中隐含的主题信息,为后续研究提供研究主题分布上的参考。Chen H等运用LDA模型对截至2015年发表在MIS Quarterly等3本信息系统领域顶级刊物上的文章进行了主题建模,深入分析了信息系统领域的研究问题,以及各研究问题间的关联。赵紫鹃等运用LDA模型对“第十三届全国复杂网络大会”的会议摘要文本进行了文本挖掘,得到了10类研究主题。李跃艳等选取SIGIR会议论文为研究对象,使用LDA模型,分析了近10年信息检索领域的研究热点与演化趋势。可见,使用LDA主题模型探究某具体领域的热点主题可以从更细的粒度分析推断文章内容,挖掘隐含的语义信息,得到更加细致的结论,因此,本研究采用LDA主题模型来挖掘国际区块链领域研究的热点主题,并分析其随时间演化情况,以期为我国学者把握研究前沿和热点提供参考。
2模型与方法
本研究以Web of Science核心合集SCI-EX-PANDED和SSCI中区块链相关的文献数据作为数据来源,根据研究目的对其进行清洗,保留对分析有用的字段,使用LDA主题模型对文献的研究内容(标题、摘要、关键词)进行主题挖掘,计算困惑度以确定最优主题数,根据高概率的词对主题进行标注;并计算主题强度,划分出热点主题,并按时间窗口进行离散化处理,分析热点主题随时间的演化情况。本研究整体框架如图1所示。
2.1 LDA主题模型
挖掘科研文献主题的方法有很多,传统的词频分析或者共词分析的方法也可达到揭示科研文献数据集的研究主题的目的,但是关键词之间可能存在“共生现象”,可能有多个高频的关键词同属于一个主题,导致词频较低的关键词所属的主题难以发掘。并且传统的方法以关键词为研究对象,本身损失了很多语义信息(例如摘要中包含的信息),只能大致反映文章的方向,难以挖掘其隐含的语义信息,分析文本的规模也有限。而主题模型的出现,较好地解决了这一问题,不仅能够处理大规模的文本数据,还能挖掘出语料中潜在的语义信息,因此,本文采用LDA主题模型来挖掘国际区块链研究的热点主题。
(Latent Dirichlet Allocation,LDA)潜在狄利克雷分配模型,是一种常见的主题模型,2003年由Blei D M等共同提出。可以认为LDA是PLSA(Probabilistic Latent Semantic Analysis,概率潜在语义分析)的拓展,LDA使用了先验分布,克服了学习过程中的过拟合问题。该模型假设:①主题由词的多项分布表示;②文档由主题的多项分布表示;③主题一词分布和文档—主题分布,两者的先验分布都是狄利克雷分布。借由狄利克雷分布是多项分布的共轭先验分布这一特性,可以通过观测的单词序列,推断出文档—主题分布和主题—词分布,挖掘出隐含的主题层,其生成过程如图2所示。
LDA模型将代表文本的词频向量(文档—词频矩陣)作为输入,通过迭代输出推断出的文档—主题分布、主题—词分布,即每个文档由各个主题生成的概率、每个主题包含各个词的概率。图2中的节点表示随机变量:实心节点表示观测变量,空心节点表示隐变量;有向边表示概率依存的关系;矩形板块表示重复,板块内数字表示重复次数。图2中使用的符号及其含义如表1所示。 2)Topic4(加密货币):
Topic4比较有代表性,“加密货币”是区块链的传统主题,区块链正是由中本聪于2008年在比特币白皮书中首次提出,所以在2008年的时候主题强度比较高,但是随着区块链在其他领域应用研究的蓬勃发展,渐渐势微,但是2015年以来,随着以太坊(ETH)、门罗币(XMR)、达世币(DASH)等多种加密货币的涌现,使得公众对加密货币的关注度空前提高,学界也从其安全性、经济性等多角度开始了如火如荼的研究:Wu Y等提出了一种识别可疑比特币地址的框架,可以发现犯罪网络并提供可视化功能:Bousfield D从经济学和网络演化的角度对加密货币,特别是比特币及其替代货币的持久性和可行性进行了分析。
本研究还参考王发明等对于区块链应用研究的划分,将区块链应用研究划分为3大类型,也将挖掘出的主题与之对应:①区块链1.0,诸如虚拟数字货币等对于区块链的传统应用(对应Topic4加密货币);②区块链2.0,主要涉及智能合约的使用,例如在证券登记、期货、票据等金融市场的应用(对应Topic3商务智能合约);③区块链3.0,区块链在其他更广阔的领域的应用,特别是用于解决各领域的信任、共享等问题(对应其余的6个主题)。不难发现,上述两个演化特点明显的主题,正是代表了区块链1.0和区块链2.0的演化特点。为了解析当今学界对于各个类别研究的占比情况,将2020年各主题强度求和,代表各个类别的应用研究的热度,结果如图8所示。
从图中可以看出,如今对于区块链的研究已经不只局限于诸如“加密货币”“智能合约”等传统领域,而是拓展到其他领域,正如对图7分析得到的结论一样,区块链的研究呈现多样化的态势。如今对于区块链3.0的研究如火如荼,但区块链1.0和区块链2.0的研究并未消亡,究其原因,正是对于其传统领域应用研究的逐步深入,带动和启发了更多应用场景的实施,我国的学者在拓展更多应用场景的同时,也要关注其技术发展带来的新特性,有针对性地寻找其新的应用场景。
4结语
4.1结论
本研究收集Web of Science核心合集SCI-EX-PANDED和SSCI中2008—2020年区块链领域的文献,运用LDA主题建模,从热点主题和主题演化两个方面对国外区块链研究进行了分析,得出以下结论。
1)国际区块链研究自2008年开始,經过10余年的发展,如今已经形成非常丰富的概念内涵。国际学者比较关心的区块链研究领域包括商业智能合约、数字货币、数据隐私保护、能源交易与共识算法、物联网安全、工业供应链、车联网安全、医疗健康等。这些研究极大扩展了区块链的内涵,也奠定了该领域的理论与实践研究基础。
2)在全部国际区块链研究主题中,医疗健康、数据隐私保护、能源交易与共识算法和物联网安全4个主题的主题强度高于阈值,即4个主题作为当下区块链研究的热点主题,代表着国际区块链领域学者最关心的热点话题。在未来一段时间内仍然是区块链研究中的热点。
3)商务智能合约和加密货币两个主题都是在区块链技术发展早期出现,其共同演化特征都是在相关重要文献发表之后开始受到更多关注,从此研究热度开始上升。另外,也发现了区块链领域研究早期的话题大多与区块链本身技术相关,如加密货币和数据隐私保护;而到了发展后期,其研究热点开始向应用研究转移,如医疗健康、车联网等。
4)从主题分布上看,国际区块链领域主题热度分布近年来逐渐趋于均衡,说明领域研究的结构相较于早期已开始变得稳定。
4.2建议
基于本研究的发现,结合上述分析结论与我国区块链领域研究现状和行业发展需求,提出以下建议。
1)重视国外研究成果,从中获取国外区块链研究前沿,以此指导我国学者、企业界相关从事者抓住区块链领域的发展现状,追踪最前沿的研究热点。本研究对国际区块链文献进行主题分析,结果正是国外当前的研究热点,了解、分析这些热点出现的背景以及对社会、经济的影响,可以快速了解国外区块链研究的现有布局,以提升我国研究的战略视野和竞争力。
2)加快研究成果的转化与落地。本研究展示国际区块链研究从早期的纯技术理论研究逐渐转向了应用研究。由于区块链的产业价值更多体现在市场应用方面,解决具体社会、经济问题,因此国际研究兴趣的转变说明国际学者开始更多地关注区块链技术的市场化和产业化,而在这方面,我国能力较弱。应当加强高校与企业之间的合作创新,加速科研成果的技术、应用转化,促进区块链研究价值最大化。
4.3不足
本研究的不足之处是数据源较为单一,只选取了期刊数据库,如今技术迭代加快,高质量的会议论文也具有很高的研究价值。未来考虑结合会议论文、专利和替代计量学指标,对主题进行深度的挖掘,并结合深度学习算法,进行技术发展的预测研究。
[中图分类号]TP311 [文献标识码]A [文章编号]1008-0821(2021)09-0157-10
自2008年中本聪(Satoshi Nakamoto)发表《Bitc-oin:A Peer-to-Peer Electronic Cash System》以来,各界研究人员对其底层核心技术——“区块链”的探索和研究热情水涨船高,由于其“可追溯”“防篡改”等特性,它在其他领域的重要程度日益凸显。但在这种备受各界学者关注的情况下,王江等指出,虽然我国在区块链研究方面生产力占据世界第一,然而最具有影响力的区块链研究的来源期刊、论文、作者等都来自于国外,因此,把握国际学者对于该领域的研究现状及热点主题的演化,有利于我国的学者发现研究新趋势,学习和借鉴有益成果,为我国的“区块链”研究提供参考。
1区块链主题的相关科学计量研究及其不足
近些年来,学界有许多关于区块链研究现状、研究热点以及主题演化等方面的研究。Firdaus A等以Scopus数据库收录的2013—2018年的区块链相关文章为研究对象,运用文献计量的方法进行分析,发现最活跃的国家是美国,其次是中国和德国。Dabbagh M等分析了Web of Science数据库中2013—2018年的相关论文,指出了其主要学科分布包括:计算机科学、工程学、电信学、商学、经济学等。王发明等选取“CNKI期刊库”2015—2017年5月的论文,使用Cite Space可视化工具,从关键词、作者共现等角度,分析了我国区块链的研究热点,该研究认为我国区块链领域尚处于探索期,并且将热点主题概括为基础研究和应用研究两个方面。汪园等也运用Cite Space可视化工具,对2015—2017年的相关文献进行了分析,从文献类型(科普评论类、探索研究类)、期刊分布、学科分布等方面对区块链相关研究进行描述总结。花敏等通过对2015—2019年CNKI数据库和WOS数据库相关文献的对比分析,从发文量、高产机构等多个角度展开,该研究认为中国和美国是两个开展区块领域研究的主力国家,2015—2019年,我国在区块链领域发表的外文文章的数量始终高居榜首并迅猛增长。但是正如王江等的发现,最具有影响力的区块链研究的来源期刊、论文、作者等都来自于国外,所以本文以国际区块链研究为研究对象,分析其热点主题演化情况,以期为我国学者提供借鉴参考。
当前研究大多以科学数据库中的文献及引文数据为研究对象,特别是关键词,使用文献计量的方法及工具,特别是关键词共现分析,从作者、期刊及机构等角度分析区块链研究热点。但是题录数据中,摘要包含的信息没有得到有效的利用,仅仅靠关键词只能反映文章的大致方向,难以挖掘其隐含的语义信息。
LDA(Latent Dirichlet Allocation)主题模型能够很好地解决这一问题,通过抽取摘要中隐含的主题信息,为后续研究提供研究主题分布上的参考。Chen H等运用LDA模型对截至2015年发表在MIS Quarterly等3本信息系统领域顶级刊物上的文章进行了主题建模,深入分析了信息系统领域的研究问题,以及各研究问题间的关联。赵紫鹃等运用LDA模型对“第十三届全国复杂网络大会”的会议摘要文本进行了文本挖掘,得到了10类研究主题。李跃艳等选取SIGIR会议论文为研究对象,使用LDA模型,分析了近10年信息检索领域的研究热点与演化趋势。可见,使用LDA主题模型探究某具体领域的热点主题可以从更细的粒度分析推断文章内容,挖掘隐含的语义信息,得到更加细致的结论,因此,本研究采用LDA主题模型来挖掘国际区块链领域研究的热点主题,并分析其随时间演化情况,以期为我国学者把握研究前沿和热点提供参考。
2模型与方法
本研究以Web of Science核心合集SCI-EX-PANDED和SSCI中区块链相关的文献数据作为数据来源,根据研究目的对其进行清洗,保留对分析有用的字段,使用LDA主题模型对文献的研究内容(标题、摘要、关键词)进行主题挖掘,计算困惑度以确定最优主题数,根据高概率的词对主题进行标注;并计算主题强度,划分出热点主题,并按时间窗口进行离散化处理,分析热点主题随时间的演化情况。本研究整体框架如图1所示。
2.1 LDA主题模型
挖掘科研文献主题的方法有很多,传统的词频分析或者共词分析的方法也可达到揭示科研文献数据集的研究主题的目的,但是关键词之间可能存在“共生现象”,可能有多个高频的关键词同属于一个主题,导致词频较低的关键词所属的主题难以发掘。并且传统的方法以关键词为研究对象,本身损失了很多语义信息(例如摘要中包含的信息),只能大致反映文章的方向,难以挖掘其隐含的语义信息,分析文本的规模也有限。而主题模型的出现,较好地解决了这一问题,不仅能够处理大规模的文本数据,还能挖掘出语料中潜在的语义信息,因此,本文采用LDA主题模型来挖掘国际区块链研究的热点主题。
(Latent Dirichlet Allocation,LDA)潜在狄利克雷分配模型,是一种常见的主题模型,2003年由Blei D M等共同提出。可以认为LDA是PLSA(Probabilistic Latent Semantic Analysis,概率潜在语义分析)的拓展,LDA使用了先验分布,克服了学习过程中的过拟合问题。该模型假设:①主题由词的多项分布表示;②文档由主题的多项分布表示;③主题一词分布和文档—主题分布,两者的先验分布都是狄利克雷分布。借由狄利克雷分布是多项分布的共轭先验分布这一特性,可以通过观测的单词序列,推断出文档—主题分布和主题—词分布,挖掘出隐含的主题层,其生成过程如图2所示。
LDA模型将代表文本的词频向量(文档—词频矩陣)作为输入,通过迭代输出推断出的文档—主题分布、主题—词分布,即每个文档由各个主题生成的概率、每个主题包含各个词的概率。图2中的节点表示随机变量:实心节点表示观测变量,空心节点表示隐变量;有向边表示概率依存的关系;矩形板块表示重复,板块内数字表示重复次数。图2中使用的符号及其含义如表1所示。 2)Topic4(加密货币):
Topic4比较有代表性,“加密货币”是区块链的传统主题,区块链正是由中本聪于2008年在比特币白皮书中首次提出,所以在2008年的时候主题强度比较高,但是随着区块链在其他领域应用研究的蓬勃发展,渐渐势微,但是2015年以来,随着以太坊(ETH)、门罗币(XMR)、达世币(DASH)等多种加密货币的涌现,使得公众对加密货币的关注度空前提高,学界也从其安全性、经济性等多角度开始了如火如荼的研究:Wu Y等提出了一种识别可疑比特币地址的框架,可以发现犯罪网络并提供可视化功能:Bousfield D从经济学和网络演化的角度对加密货币,特别是比特币及其替代货币的持久性和可行性进行了分析。
本研究还参考王发明等对于区块链应用研究的划分,将区块链应用研究划分为3大类型,也将挖掘出的主题与之对应:①区块链1.0,诸如虚拟数字货币等对于区块链的传统应用(对应Topic4加密货币);②区块链2.0,主要涉及智能合约的使用,例如在证券登记、期货、票据等金融市场的应用(对应Topic3商务智能合约);③区块链3.0,区块链在其他更广阔的领域的应用,特别是用于解决各领域的信任、共享等问题(对应其余的6个主题)。不难发现,上述两个演化特点明显的主题,正是代表了区块链1.0和区块链2.0的演化特点。为了解析当今学界对于各个类别研究的占比情况,将2020年各主题强度求和,代表各个类别的应用研究的热度,结果如图8所示。
从图中可以看出,如今对于区块链的研究已经不只局限于诸如“加密货币”“智能合约”等传统领域,而是拓展到其他领域,正如对图7分析得到的结论一样,区块链的研究呈现多样化的态势。如今对于区块链3.0的研究如火如荼,但区块链1.0和区块链2.0的研究并未消亡,究其原因,正是对于其传统领域应用研究的逐步深入,带动和启发了更多应用场景的实施,我国的学者在拓展更多应用场景的同时,也要关注其技术发展带来的新特性,有针对性地寻找其新的应用场景。
4结语
4.1结论
本研究收集Web of Science核心合集SCI-EX-PANDED和SSCI中2008—2020年区块链领域的文献,运用LDA主题建模,从热点主题和主题演化两个方面对国外区块链研究进行了分析,得出以下结论。
1)国际区块链研究自2008年开始,經过10余年的发展,如今已经形成非常丰富的概念内涵。国际学者比较关心的区块链研究领域包括商业智能合约、数字货币、数据隐私保护、能源交易与共识算法、物联网安全、工业供应链、车联网安全、医疗健康等。这些研究极大扩展了区块链的内涵,也奠定了该领域的理论与实践研究基础。
2)在全部国际区块链研究主题中,医疗健康、数据隐私保护、能源交易与共识算法和物联网安全4个主题的主题强度高于阈值,即4个主题作为当下区块链研究的热点主题,代表着国际区块链领域学者最关心的热点话题。在未来一段时间内仍然是区块链研究中的热点。
3)商务智能合约和加密货币两个主题都是在区块链技术发展早期出现,其共同演化特征都是在相关重要文献发表之后开始受到更多关注,从此研究热度开始上升。另外,也发现了区块链领域研究早期的话题大多与区块链本身技术相关,如加密货币和数据隐私保护;而到了发展后期,其研究热点开始向应用研究转移,如医疗健康、车联网等。
4)从主题分布上看,国际区块链领域主题热度分布近年来逐渐趋于均衡,说明领域研究的结构相较于早期已开始变得稳定。
4.2建议
基于本研究的发现,结合上述分析结论与我国区块链领域研究现状和行业发展需求,提出以下建议。
1)重视国外研究成果,从中获取国外区块链研究前沿,以此指导我国学者、企业界相关从事者抓住区块链领域的发展现状,追踪最前沿的研究热点。本研究对国际区块链文献进行主题分析,结果正是国外当前的研究热点,了解、分析这些热点出现的背景以及对社会、经济的影响,可以快速了解国外区块链研究的现有布局,以提升我国研究的战略视野和竞争力。
2)加快研究成果的转化与落地。本研究展示国际区块链研究从早期的纯技术理论研究逐渐转向了应用研究。由于区块链的产业价值更多体现在市场应用方面,解决具体社会、经济问题,因此国际研究兴趣的转变说明国际学者开始更多地关注区块链技术的市场化和产业化,而在这方面,我国能力较弱。应当加强高校与企业之间的合作创新,加速科研成果的技术、应用转化,促进区块链研究价值最大化。
4.3不足
本研究的不足之处是数据源较为单一,只选取了期刊数据库,如今技术迭代加快,高质量的会议论文也具有很高的研究价值。未来考虑结合会议论文、专利和替代计量学指标,对主题进行深度的挖掘,并结合深度学习算法,进行技术发展的预测研究。