基于分布式大数据技术的科学计量模块化分析平台构建研究

来源 :数据分析与知识发现 | 被引量 : 0次 | 上传用户:samzy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
[目的]设计开发模块化计量指标分析平台,满足计量分析人员多维条件定制、实时高效计算的计量分析需求.[应用背景]面对海量科学文献数据,传统关系数据库进行大数据量计量计算时效率较低,计算时间长,分布式大数据技术为实时性科学计量分析平台提供了技术基础.[方法]设计计量指标管理模型及基于工作流的指标构建流程,将分析任务分解为多个可独立计算单元;基于分布式大数据ES索引、Redis集合计算、预计算指标等技术,将计算统计任务转化为倒排索引查询及集合运算等操作.[结果]为用户提供标准化的指标选择构建流程、可动态扩展的弹性任务配置及准实时的指标计算支持.[结论]以分布式大数据技术为基础,对计算任务抽象分装,实现了高效、通用的模块化分析平台,同时本研究也可为相关分析决策系统提供参考.
其他文献
[目的]将同一篇引文文献的不同表达形式进行归一,实现期刊引文数据规范控制与管理,减轻引文失范造成的数据质量问题.[方法]以期刊引文数据库建设为目标场景,根据参考文献著录
[目的]减少文本数据的训练数据量,缩短模型训练时间.[方法]基于协方差估计,提出一种新的过滤式样本选择算法,并将数据的遗忘性研究成果应用到嵌入式样本选择算法中.[结果]在
[目的]理清网络在线信任影响因素,洞察信任者与被信任者需求,发掘内外部环境的影响差异,解释各影响因子的作用效应,精准提升用户信任度.[文献范围]在Web of Science、CNKI等
[目的]在文献层和词汇层之间加入主题层,研究一种新的词汇相似度计算方法.[方法]阐述基于形式概念分析(FCA)的主题定义和表示模型,将词汇项映射到主题层级,提出一种基于主题
[目的]针对先行表述复杂、指代词语义不明的问题,探索更有效的指代消解方法.[方法]采用端到端的框架,使用打分排序法识别指代关系.先对文本段中的连续词序列进行“提及”打分