【摘 要】
:
尽管目前海运行业目前已普遍使用计算机处理业务,并且由于公共信息基础设施和内部网的建设,一般海运企业都已有了基本的信息处理环境。但是这种息化的认识深度有限,大部分企
论文部分内容阅读
尽管目前海运行业目前已普遍使用计算机处理业务,并且由于公共信息基础设施和内部网的建设,一般海运企业都已有了基本的信息处理环境。但是这种息化的认识深度有限,大部分企业的数据管理存在以下两类问题:一、数据管理数量不断增长的数据是否被有效地跟踪、管理,合理的层层抽取供各种业务应用共享,以及数据的完整性、安全性的保证等;二、数据分析:这些数据是否作为企业宝贵的资源被有效地分析利用。例如在大量的操作数据中,可以分析每项业务、各个部门、船舶、航线的效率、效益、系统的性能、客户的贡献、市场的趋势等。大部分海运企业目前还没有有效地解决以上第一个方面的问题,第二个方面工作进行得也很少。基于这个现状,本文针对目前海运行业中最重要的集装箱班轮运输,提出一个多数据源的,具有采集、解析、整理能力的班轮船期数据整理系统。并针对该系统实现中的难点——PDF表格数据识别提出了一个自己的解决算法。本文的主要工作主要体现在如下几个方面:一、数据采集功能的实现:利用成熟的HTTP协议工具HttpClient,实现了一个自动化的船期数据采集工具.二、数据模型设计:针对船期数据收集平台以及前台业务的具体需要设计了数据模型。三、总体设计:基于成熟的J2EE框架Spring;使用Quartz实现业务调度;使用POI、Html Parser等数据解析工具实现船期表格数据的识别。最后针对目前表格识别技术的现状,在PDF表格数据解析,识别方面做了一些有益的尝试。
其他文献
随着片上系统设计水平的不断提高,嵌入式设备具有体积小、功能越来越多的特点,特别是在实时系统中,要求能准确估算任务的执行时间,为此嵌入式系统需要进一步性能优化。为了提
随着信息社会的高速发展,信息数据量日益膨胀,如何把这些数据转换成有用的信息和知识将是数据挖掘领域要解决的核心问题。模式挖掘是数据挖掘中重要的一部分,通过模式挖掘与
Internet技术和无线通信技术已经成为自20世纪末到21世纪初期以来,世界科学技术发展中最活跃的领域之一。电信网络技术和以IP技术为代表的计算机网络技术的融合,推动信息通信
蛋白质分子的结构非常复杂,对其结构进行预测需要建立一个简化模型,并采用优化算法求解稳定状态下最小能量值,但算法的数据计算量非常庞大。因此,利用分布并行技术提高算法的
为适应银行电子化和业务发展需要,扩大稽核范围,提高稽核效率,防范金融风险,许多银行都建立了自己的稽核流程管理系统。稽核流程管理系统是利用计算机系统对被稽核单位业务数
由于科技的发展与Internet的普及,越来越多的软件系统的运行环境从封闭和静态逐步转变为开放、动态而多变的状态,并且软件系统的在线维护和演化成为系统要素,同时,分布式中间
经过数十年的发展,我国医疗信息化在取得诸多成绩的同时,依然存在着不少的问题。区域卫生医疗信息化的发展严重滞后,其中普遍存在的“信息孤岛”,“政策发展与新技术交叉”问
互联网应用的飞速发展,使目前网络上聚集了海量资源。而这些资源大多处于闲置状态,这就引发了人们对如何利用这些闲置资源来解决实际问题的思考。然而在互联网环境下,对成长
数据融合技术产生于20世纪80年代,在多传感器遥感图像的融合、机动目标跟踪、航迹关联、多传感器目标定位、识别与分类、分布信息融合、数据关联、态势评估与威胁估计以及在
随着互联网、多媒体技术和计算机视觉的快速发展,海量的数字图像的处理成为日益现实而紧迫的问题,即如何从如此纷繁复杂的图像中快速的找到我们所需要的信息。近年来,主要以