多种类型文档的数据处理

来源 :科学与财富 | 被引量 : 0次 | 上传用户:hsxy8848
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:pdf、word、txt等类型文档在学习和办公中的使用越来普遍,为了方便对这些文档进行统一归类、整理等必要的处理,在处理文档的时候,那么就需要把文档转换成统一的格式进行处理,这就涉及到各种类型文档的相互转换。还需要提取关键词等功能来帮助用户对文档分类或了解文档的大概内容。
  本文会讲解在多种类型文档进行数据处理时所采用的关键词抽取的相关技术和数据格式转换技术的调研和使用。拟用C/S结构开发,采用JAVA作为开发工具,在Eclipse环境下,实现对多种类型文档进行数据处理的模拟。
  关键词:格式转换;关键词抽取
  1 设计方案
  1.1文档格式转换方案
  因各类文档的转换方法类似,而word文档转换为pdf文档是最常用的。所以设计方案用实现word文档转换为pdf文档的作为例子,详细方案如下。
  方案1:
  首先利用程序直接打开Word文档,從原文档中获取文字和图像的内容以及它们的相关属性(因word文档对文字和图像的属性设置过多,只能获取部分关键属性),再直接生成PDF文档并按照Word文档的对应属性把对应的文字内容和图像内容分别输入到相应的位置上,最后关闭文件。
  但是,因为需要从文档中直接获取其中的内容和对应属性,如果要采用此方案,就必须精通Word以及PDF的文档的结构。但是Word和PDF的文档的结构非常复杂(单单文档的规则就有几千条,时间会浪费在阅读和使用规则上)。这就意味着,在读取Word文档的时候不但要获取Word文档的文本内容,而且还要获取到对应的字体格式、颜色、背景图像以及表格的位置等等。又因为微软的office软件和Adobe Acrobat Professional都不是开源软件,没有它们的源代码,就很难保证在定义Word和PDF文档对应属性、设置文档格式时不会遇到非开源的部分。综上所述,此方案体实现困难。
  方案2:
  对于方案1中存在的问题,微软公司和第三方公司提供了操作Word、Excel和PDF的类库、接口和组件,这就有了解决方案。第二种方案就是先制作一个中间件,即将word文档先转换成Ps文档,然后再把Ps文档转换成PDF文档。最终编写图形界面,上传文档并利用代码使用这个中间件完成文档转换。
  方案3:
  为了提高多种类型文档的数据处理的稳定性和安全性,本方案对方案2进行修改,取消使用件。方案2调用提供的相应组件和类库的使用是在中间件中实现的,每当对中间件打包处理时,只能把中间件打包,而对于其中所调用的组件和类库等无法打包,若用方案2开发模拟数据处理的模拟程序必受到软件环境的制约。所以方案3放弃使用中间件,采用PDFBOX、POI类库。考虑到需转换的文檔具有很多的规范,且不易直接操作的特点,同时为了数据处理模拟程序的通用性,因此决定使用方案3进行模拟。
  1.2关键词抽取方案
  在文档被统一的转换为同一类文档后,接下来就需要对文档进行关键词抽取。
  1.利用ANSJ中文分词对转换后文档进行处理,将文档中所有词汇和词性放入数组中存储。
  2.统计特征值。创建一个哈希表。里面需要有词汇所在位置(标题,摘要,正文,句首,句尾)和出现总次数等等。
  3.从正文的开始处,若开头不是虚词也不是符号,若相连的两个词都不是,计算这两个词连续出现的次数。如果计算的次数大于设定的阈值,就把这两个词或者合并到一起并修正词性为new(表示为名词),再从这个重新组成的词作为开始,循环以上操作;若相连两个词的出现的次数小于设定的阈值,或有虚词、符号,则跳过。然后寻找下一个不是虚词或者符号的实词。直至正文内容的结尾。
  4.根据修改的数组重新遍历。重新整理哈希表的信息。修改原来的新词汇new和里面的特征值。
  以上步骤能够重新切分出一些新词。这些新词可以作为关键词提取的一个特征值,它们会起很大的作用。
  2 程序模拟
  按照方案3进行程序模拟的结果如下图所示:
  参考文献
  [1] 田学军.PDF文件格式及其转化方法探讨[J],荆门职业技术学院学报,2005,(3):5-31.
  [2] 郑家恒,卢娇丽,关键词抽取方法的研究[J].计算机工程,2005,18(9):194-196.
  [3] 宋艳娟,李金铭,陈振标.基于XSLT的PDF信息抽取技术的研究[J].计算机与数字工程,2008,36(5):156-159.
其他文献
本试验是在迟播条件下进行,试图对太谷核不育小麦雄性败育原因和时期作进一步的探讨。一、材料与方法供试材料来源于山西省太谷县农科所。 1.{[(Tal-7925×079-168)×绵阳75
摘 要:随着社会的不断发展和经济的不断进步,人们的思想观念也在不断的发生着革新,对于教育工作的开展的重视程度也在不断的提升。社会对于教育工作的开展的重视程度不断提升的同时,国家对于高校的建设的资金投入比例也在逐渐增加,这使得高校实验仪器设备的先进性和完善性也在不断的提升。高校的实验仪器设备的完好性,是保障高校的教育工作的顺利开展的关键性因素之一,由此可知开展关于高校实验室仪器设备科学管理的探讨的重
我县位于广西东南部,属南亚热带季风气候,气温较高,阳光充足,雨量充沛,适宜甘蔗生长。解放以来,桂平蔗糖有较大发展,1980年比1950年,甘蔗面积扩大11.88倍,原料蔗总产增长16.
摘 要:随着时代的发展,网球俱乐部在我国广泛存在,对我国网球运动的发展起着积极作用。近年来,武汉市高校网球俱乐部蓬勃发展,虽然高校网球俱乐部的数量在不断的上升,但总体上还处于发展的初级阶段,在其建立与发展过程中还存在着很多亟待解决的问题。本文以武汉市高校网球俱乐部为研究对象,运用文献资料法、访谈法、问卷调查法、逻辑分析法等研究方法,对武汉市高校网球俱乐部的经营和管理现状展开调查,重点针对存在的问题
摘 要:随着市场经济的不断发展,亚式期权定价方式在企业期股激励制度上也得到了更多的应用,本文将针对亚式期权的由来展开分析,探讨亚式期权的定价计算方法,并对亚式期权定价在期股激励上的应用进行讨论,了解期股激励的内在价值,进而完善企业的期股激励发展战略。  关键词:亚式期权;期股激励;应用  前言:目前我国正处于深化国有企业改革的关键阶段,企业所有者和经营者的发展目标不一致,很多企业中的工作人员为了得
摘 要:语文课外阅读活动很好的贯彻了“大读写”工程的要求,拓展了语文教学的空间,开创了一个开放式的大语文学习氛围,同时大大丰富了学生的语言积累和生活体验,使学生的语文听说读写能力都得到了提高,为学生成为真正的学习主人铺平了道路。  关键词:课外阅读;拓展大语文  《语文新课程标准》中提出学生应“具有独立阅读的能力,注重情感体验,有较丰富的积累,形成良好的语感。学会运用多种阅读方法。九年课外阅读总量
摘 要:本文主要介绍XLPE电缆的结构和原理,然后从结构和原理出发,对10kV电缆终端常见错误布置以及电缆事故案例进行了分析。  一、XLPE电缆基础知识  1.1XLPE电缆结构  三相XLPE电缆的结构从内至外依次为:导体、导体屏蔽、绝缘层、绝缘屏蔽、内护层、填芯和填料、玻璃丝带、外护套。  导体:通常用导电性好、有一定韧性、一定强度的高纯度或铝制成。除有特殊要求外,导体一般采用多股紧压而成;
期刊
摘 要:在体育课中,无论是什么样的课堂结构和教学模式都离不开准备活动,然而在教学实践中常常会出现准备活动被忽视的现象。体育课的准备活动有的只作为一种形式,走走过场;有的没有认真的准备,千篇一律;有的以专项准备活动代替一般性准备活动;更有甚者,让学生自己进行准备活动,教师放任不管,致使学生对体育课感到枯燥乏味,兴趣不高,从而严重影响教学效果和教学质量。针对这些情况,本人结合自身实践经验,对体育教学过
摘 要:取消农业税后,作为我国基层政权的乡镇政府职能随之需要作出改变。本文从乡镇政府的职能转变出发,指出农业税取消后乡镇政府职能转变过程中存在的问题,从而找到能优化乡镇政府职能转变的路径。  关键词:农业税;乡镇政府职能;职能转变  一、农业税取消要求乡镇政府职能做出转变  (一)农业税取消后乡镇政府原主要职能丧失存在基础  农业税时代,乡镇政府的中心工作是“催粮派款”和“催耕催种”;农业税取消后
摘 要:分段凿岩阶段矿房法是凌源日兴矿业有限公司的一种典型回采方法,为了适应不断变化的外界条件,为了适合矿山发展的需要,低分段发展为高分段,不但为矿山节约了生产成本,还提高了采矿效率、劳动生产率以及作业安全性等矿山技术经济指标。同时也拓宽了阶段矿房法的标准设计方案,具有实践价值。  关键词:分段凿岩阶段矿房法 凌源日兴矿业有限公司;中深孔爆破;低分段;高分段  凌源日兴矿业有限公司(原柏杖子金矿)