学术文献中数据使用的自动识别

来源 :武汉大学 | 被引量 : 1次 | 上传用户:ccmjacky20
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据处理和存储技术的进步,科研数据的有效管理和基于数据的研究行为均得到越来越多的关注。为更好地对数据使用行为进行研究,本文确立了基于自动化文本挖掘的数据使用行为识别的研究目标,并在识别的基础上进行了领域内数据使用行为分析的应用尝试。计算机科学领域中依赖计算机进行的实验通常完全按照作者设定的程序编码准确进行,因此实验数据和程序编码都具有复用的可能性,共享和重用此类科学数据对学科发展有着重大的促进意义。并且,计算机科学领域的数据实践开展相对生物医学等其他领域尚处于初级阶段。在此背景下,笔者选择计算机科学领域的数据使用行为作为研究对象。本文首先以计算机科学领域内的学术文献构建训练集,经过基于bootstrapping的无监督训练过程得到数据使用陈述抽取模板(pattern),在数据使用陈述抽取的基础上,采用词性标注和词频统计的思路对抽取结果进行分析,得到候选的公共数据集集合,辅以基于规则的自动过滤和部分人工干预得到最终的计算机领域内公共数据集集合。最终,本文在数据使用陈述抽取和构建完毕的领域内公共数据集集合的共同基础上,实现数据集层面的数据使用识别。本文利用从训练集获取的pattern列表实现数据使用陈述抽取,从而通过文章包含的陈述数目判断该文章是否属于数据使用类文献。实验结果显示文章层面的数据使用识别的F-1值达到85%以上,附加公共数据集名称作为抽取结果的数据对象层面的数据使用识别的综合准确度达到72.88%,均取得了较为满意的结果。作为数据使用识别的一项应用举例,本文进一步对模式识别子领域内的数据使用行为进行了探究。结果显示,无论从使用数据的主体,还是从被使用的数据对象来看,数据使用和数据重用在模式识别领域得到越来越多的应用。国家间和机构间的数据使用倾向基本一致,而在选择使用自建数据还是第三方数据的倾向上则略有差异。
其他文献
随着互联网图像资源的爆炸式增长,用户对图像检索结果多样化的需求愈发强烈。为满足用户的图像检索多样化需求,研究者们利用图像视觉特征进行检索多样化,但图像视觉内容自身
随着云计算服务需求的日益增长,有限的带宽容量成为未来云增长的关键瓶颈。目前,云数据中心带宽优化分配问题亟待解决,各种云数据中心带宽优化分配的策略应运而生。由于云数
本文主要研究西藏尼玛县荣玛乡南部莎巧木组的沉积微相和沉积相。通过野外剖面实测,发现莎巧木组并非典型的清水碳酸盐岩台地相沉积,其中发育了大量的陆源碎屑混入物,具有明
伴随国内制造业的规模扩张,迅速发展,出口产品规模逐渐增大,而且国内的经济市场也向外不断拓展,制造业规模位居世界前列。尤其是在我国加入世贸组织之后,对外贸易持续推动着国内制造业的发展,但是,市场的扩张虽然给国内市场带来了很多的受益,但也会伴随着更多的风险,出口企业面对着更加恶劣的风险环境。需要提高风险管理水平,目的是用最小的投入得到更多的风险保障,能够在竞争激烈的国内市场当中存活下来,而风险管理在诸
由于能源消耗的不断增加和化石能源的储量不足,开发新型的清洁可持续能源,减少碳排放已成为亟待解决的全球性问题。由于氢拥有比碳和其他任何化学燃料更高的燃烧焓,氢能被认为是未来最有前景的清洁能源。通过氢气和氧气反应将化学能转化为电能的燃料电池,被认为是最具有潜力应用于汽车和其他移动设备中的下一代电池。其中质子交换膜燃料电池(PEMFC)是迄今为止最有前景的燃料电池技术。PEMFC中,在阴极发生的氧还原反
本文研究的是数据中心网络中,并行计算业务协同数据流的平均完成时间最小化问题。如今,数据中心存在大量的并行计算应用,这类应用产生的协同数据流量通常用Coflow模型描述,合
基于图像的风格化绘制是计算机图形学领域非真实感渲染研究的热点问题之一。它旨在将真实的图像转换为具有艺术风格的图像,使目标图像在保留原始图像关键视觉信息的同时还展
在中国经济社会改革开放30多年的高速发展过程中,环境污染问题不断积累,不断激化,已引起社会的广泛关注。贸易已成为污染转移的重要途径,在当前经济全球化、贸易自由化的背景
颞下颌关节紊乱病(temporomandibular disorders,TMD)的病因机制复杂,其中咬合与TMD的关系颇具争议,有些学者认为(牙合)或者颌位因素是引起TMD的潜在因素,即正中(牙合)(centric occlusion,CO)-正中关系(centric relation,CR)不调时会使咬合不稳定,可能会引起颞下颌关节功能失调,进而发展为TMD。“功能(牙合)”正畸矫治理念中也强
分布式一致性算法(Distributed Consensus Algorithm)是现代分布式计算系统和分布式服务框架的基础设施,其职责是保障分布式成员间存在统一内部状态视图。经典Paxos算法提供