面向海量地质文档的表格信息快速抽取方法研究

来源 :中国矿业 | 被引量 : 0次 | 上传用户:wennna
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
以Hadoop分布式系统架构中最核心的HDFS和MapReduce为基础,提出了一种面向海量地质文档的表格信息快速抽取的方法。为了提高地质文档表格信息抽取速度,首先利用关键词查找文档在HDFS中存储的根目录,其次利用Hadoop分布式集群中Map函数和Reduce函数实现单元格信息的抽取和信息还原显示,最后对重庆市矿产资源潜力评价成果数据中WORD文档进行表格快速抽取实验。实验证明,本文提出的地质文档表格信息快速抽取方法可以大幅缩减传统单机串行地质文档表格信息抽取所需的时间。
其他文献
绿色矿山是我国矿业实现绿色发展的战略依托,具有现实的可操作性,在实践过程中不断积累深化,其内涵在扩展,体现出包容性和开放性的特点。党的“十八大”将生态文明建设列入“
高家堡煤矿4煤层顶板分布多个含水层,其中洛河组含水层富水性强且洛河组上下段无明显隔水层,并且导水裂缝带高度也难以观测,所以涌水量计算模型的确定至关重要。根据洛河组的
针对无底柱分段法采矿损失贫化大这一技术难题,采用大结构参数单漏斗放矿模型,研究了放矿过程中铲入深度对放出矿石量、矿石回收率及混岩率等指标的影响。结果表明:放矿端部正
土地退化作为威胁人类生存与发展的首要难题,一直引起政府广泛关注,尤其是矿区土地退化问题更为突出,也是学者研究热点和政策治理难点。鉴于此,本文在理论分析基础上,通过构
目的探讨儿童功能性构音障碍21词首辅音的错误特征,以了解词首辅音的发育特征,为临床矫治提供参考依据。方法对71例4岁以上功能性构音障碍儿童,采用图片命名法对21个词首辅音
《炎黄春秋》2009年第10期刊登《凭空编造荒诞无稽——评师东兵的几本书》一文(作者为胡耀邦的秘书高勇),写到如何抢救胡耀邦时,有以下叙述:
根据采空区群分布情况,首先用高精度BLSS-PE矿用三维激光扫描测量系统进行精密探测,获得了105万m 3大型采空区群,然后采用数值模拟软件FLAC^3D计算分析该采空区群稳定性状况,
<正>子宫颈电环切除术(loop electrosurgical excision procedure,LEEP)是近年来颇为流行的子宫颈病变诊治技术,应用过度会带来严重的并发症,影响患者的身心健康。因此,该技
后现代主义艺术是由结构的变形与整合组成,可以打破时间的连续性、空间的一维性。结构的符号化是后现代艺术得以客体化,从审美意识到美的客观物的演变,通过生产与媒介来完成
电子商务作为一种新的商务模式,正在改变着中小企业的生产经营活动。本文从经济环境变化和电子商务优势等方面分析了中小企业开展电子商务的必要性,并从企业战略、管理模式、人