非结构化参考文献提取与管理方案研究

来源 :软件导刊 | 被引量 : 0次 | 上传用户:zhiyuanboxue
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,出版行业逐渐将采集、编辑等流程转移到计算机上进行,实现从传统出版到数字出版的转型。图书出版物中参考文献具有重要意义。现有参考文献管理工具在运行时,大多要求在图书编撰的起始阶段介入,并需要用户自行从外部获取结构化的参考文献信息。在数字出版系统中,图书内容由投约稿作者提供,具有大量非结构化文本,难以进行管理。针对这一问题,研究了GB/T 7714-2005文后参考文献著录规则,运用正则表达式匹配等技术手段,提供了一种非结构化文本中参考文献的提取和管理方案。
其他文献
在保险行业,大量的文档、票据、证据等作为保险合同的重要组成部分,必须管理好。将保险影像数据管理平台作为保险应用的基础组件,提供影像的全生命周期管理,以有效支撑保险业
在大规模集成互联网络中,需要对网络流量进行异常检测和识别,以保障网络安全。利用高阶累积量对干扰的统计独立性,提出一种基于高阶累积量配准的网络异常流量识别算法。首先
政务微博受众群体广泛、聚众效应强,具有微传播实时性、自由性、碎片化、多元化、多媒体性、互动性强等特点,信息时代政务微博在政府管理体制创新上具有重要作用。对政务微博
互联网以及虚拟技术的广泛应用,推动了数字出版的普及,催生了多种出版应用模式。IT技术的进步,使得基于互联网构建以自动化排版为特征的动态数字出版解决方案成为现实。集群调度技术通过构建任务管理中心,接收并实现外部请求任务在多个业务处理模块之间的分发与调度,从而充分利用计算资源,提升任务处理效率。针对自动化排版并发性强、即时性高以及对数据安全的特殊要求,提出了一种集群出版方法。基于XML格式进行传输参数
针对分散控制系统(Distributed Control System,DCS)和不同类型设备与第三方力控组态软件通讯的问题,提出一种融合OPC技术标准和Modbus RTU、Modbus TCP协议的通讯,有效解决了工厂应急数据采集系统通讯过程中遇到的问题。
主题词表是一种语义词典,在现代信息检索系统中具有良好发展前景。使用主题词有利于实现录入数据的正确性校验和自动标引。借助主题词间的关联,还可实现交互检索,提高检准率
针对数据分析融合平台建设中数据集成开发效率低、数据集成慢和数据网络分散等问题,提出跨网络传输的分布式ETL框架设计。通过对主流ETL工具进行分析,总结了ETL的工作原理及
Web表格信息提取已经成为构建本体的重要内容之一,它能自动将本体所需的属性名和属性值提取出来,节省大量人工劳动。关于非规范化表格信息提取的研究比较少,对本体构建造成大量
分析现有制造资源模型的不足,提出一种制造资源本体建模方法。根据属性和应用的不同将制造资源分为8类,介绍本体和OWL的概念。以双列深沟球轴承为例,使用OWL建立本体模型。资
传统的遥感影像目标检测方法大多利用人工提取特征,难以用于背景复杂的高分辨率遥感影像。以高分辨率遥感影像建筑物图像为研究对象,设计了一种基于LVQ神经网络的建筑物提取方法。对图像提取其颜色、纹理与形状特征,构成图像特征矢量并将其特征归一化,利用LVQ神经网络识别并提取出建筑物。通过与其它典型神经网络识别方法进行实验比较,结果表明该算法相对于单层感知器识别率提高了10.0%,比BP神经网络识别率提高了