论文部分内容阅读
摘 要:pdf、word、txt等类型文档在学习和办公中的使用越来普遍,为了方便对这些文档进行统一归类、整理等必要的处理,在处理文档的时候,那么就需要把文档转换成统一的格式进行处理,这就涉及到各种类型文档的相互转换。还需要提取关键词等功能来帮助用户对文档分类或了解文档的大概内容。
本文会讲解在多种类型文档进行数据处理时所采用的关键词抽取的相关技术和数据格式转换技术的调研和使用。拟用C/S结构开发,采用JAVA作为开发工具,在Eclipse环境下,实现对多种类型文档进行数据处理的模拟。
关键词:格式转换;关键词抽取
1 设计方案
1.1文档格式转换方案
因各类文档的转换方法类似,而word文档转换为pdf文档是最常用的。所以设计方案用实现word文档转换为pdf文档的作为例子,详细方案如下。
方案1:
首先利用程序直接打开Word文档,從原文档中获取文字和图像的内容以及它们的相关属性(因word文档对文字和图像的属性设置过多,只能获取部分关键属性),再直接生成PDF文档并按照Word文档的对应属性把对应的文字内容和图像内容分别输入到相应的位置上,最后关闭文件。
但是,因为需要从文档中直接获取其中的内容和对应属性,如果要采用此方案,就必须精通Word以及PDF的文档的结构。但是Word和PDF的文档的结构非常复杂(单单文档的规则就有几千条,时间会浪费在阅读和使用规则上)。这就意味着,在读取Word文档的时候不但要获取Word文档的文本内容,而且还要获取到对应的字体格式、颜色、背景图像以及表格的位置等等。又因为微软的office软件和Adobe Acrobat Professional都不是开源软件,没有它们的源代码,就很难保证在定义Word和PDF文档对应属性、设置文档格式时不会遇到非开源的部分。综上所述,此方案体实现困难。
方案2:
对于方案1中存在的问题,微软公司和第三方公司提供了操作Word、Excel和PDF的类库、接口和组件,这就有了解决方案。第二种方案就是先制作一个中间件,即将word文档先转换成Ps文档,然后再把Ps文档转换成PDF文档。最终编写图形界面,上传文档并利用代码使用这个中间件完成文档转换。
方案3:
为了提高多种类型文档的数据处理的稳定性和安全性,本方案对方案2进行修改,取消使用件。方案2调用提供的相应组件和类库的使用是在中间件中实现的,每当对中间件打包处理时,只能把中间件打包,而对于其中所调用的组件和类库等无法打包,若用方案2开发模拟数据处理的模拟程序必受到软件环境的制约。所以方案3放弃使用中间件,采用PDFBOX、POI类库。考虑到需转换的文檔具有很多的规范,且不易直接操作的特点,同时为了数据处理模拟程序的通用性,因此决定使用方案3进行模拟。
1.2关键词抽取方案
在文档被统一的转换为同一类文档后,接下来就需要对文档进行关键词抽取。
1.利用ANSJ中文分词对转换后文档进行处理,将文档中所有词汇和词性放入数组中存储。
2.统计特征值。创建一个哈希表。里面需要有词汇所在位置(标题,摘要,正文,句首,句尾)和出现总次数等等。
3.从正文的开始处,若开头不是虚词也不是符号,若相连的两个词都不是,计算这两个词连续出现的次数。如果计算的次数大于设定的阈值,就把这两个词或者合并到一起并修正词性为new(表示为名词),再从这个重新组成的词作为开始,循环以上操作;若相连两个词的出现的次数小于设定的阈值,或有虚词、符号,则跳过。然后寻找下一个不是虚词或者符号的实词。直至正文内容的结尾。
4.根据修改的数组重新遍历。重新整理哈希表的信息。修改原来的新词汇new和里面的特征值。
以上步骤能够重新切分出一些新词。这些新词可以作为关键词提取的一个特征值,它们会起很大的作用。
2 程序模拟
按照方案3进行程序模拟的结果如下图所示:
参考文献
[1] 田学军.PDF文件格式及其转化方法探讨[J],荆门职业技术学院学报,2005,(3):5-31.
[2] 郑家恒,卢娇丽,关键词抽取方法的研究[J].计算机工程,2005,18(9):194-196.
[3] 宋艳娟,李金铭,陈振标.基于XSLT的PDF信息抽取技术的研究[J].计算机与数字工程,2008,36(5):156-159.
本文会讲解在多种类型文档进行数据处理时所采用的关键词抽取的相关技术和数据格式转换技术的调研和使用。拟用C/S结构开发,采用JAVA作为开发工具,在Eclipse环境下,实现对多种类型文档进行数据处理的模拟。
关键词:格式转换;关键词抽取
1 设计方案
1.1文档格式转换方案
因各类文档的转换方法类似,而word文档转换为pdf文档是最常用的。所以设计方案用实现word文档转换为pdf文档的作为例子,详细方案如下。
方案1:
首先利用程序直接打开Word文档,從原文档中获取文字和图像的内容以及它们的相关属性(因word文档对文字和图像的属性设置过多,只能获取部分关键属性),再直接生成PDF文档并按照Word文档的对应属性把对应的文字内容和图像内容分别输入到相应的位置上,最后关闭文件。
但是,因为需要从文档中直接获取其中的内容和对应属性,如果要采用此方案,就必须精通Word以及PDF的文档的结构。但是Word和PDF的文档的结构非常复杂(单单文档的规则就有几千条,时间会浪费在阅读和使用规则上)。这就意味着,在读取Word文档的时候不但要获取Word文档的文本内容,而且还要获取到对应的字体格式、颜色、背景图像以及表格的位置等等。又因为微软的office软件和Adobe Acrobat Professional都不是开源软件,没有它们的源代码,就很难保证在定义Word和PDF文档对应属性、设置文档格式时不会遇到非开源的部分。综上所述,此方案体实现困难。
方案2:
对于方案1中存在的问题,微软公司和第三方公司提供了操作Word、Excel和PDF的类库、接口和组件,这就有了解决方案。第二种方案就是先制作一个中间件,即将word文档先转换成Ps文档,然后再把Ps文档转换成PDF文档。最终编写图形界面,上传文档并利用代码使用这个中间件完成文档转换。
方案3:
为了提高多种类型文档的数据处理的稳定性和安全性,本方案对方案2进行修改,取消使用件。方案2调用提供的相应组件和类库的使用是在中间件中实现的,每当对中间件打包处理时,只能把中间件打包,而对于其中所调用的组件和类库等无法打包,若用方案2开发模拟数据处理的模拟程序必受到软件环境的制约。所以方案3放弃使用中间件,采用PDFBOX、POI类库。考虑到需转换的文檔具有很多的规范,且不易直接操作的特点,同时为了数据处理模拟程序的通用性,因此决定使用方案3进行模拟。
1.2关键词抽取方案
在文档被统一的转换为同一类文档后,接下来就需要对文档进行关键词抽取。
1.利用ANSJ中文分词对转换后文档进行处理,将文档中所有词汇和词性放入数组中存储。
2.统计特征值。创建一个哈希表。里面需要有词汇所在位置(标题,摘要,正文,句首,句尾)和出现总次数等等。
3.从正文的开始处,若开头不是虚词也不是符号,若相连的两个词都不是,计算这两个词连续出现的次数。如果计算的次数大于设定的阈值,就把这两个词或者合并到一起并修正词性为new(表示为名词),再从这个重新组成的词作为开始,循环以上操作;若相连两个词的出现的次数小于设定的阈值,或有虚词、符号,则跳过。然后寻找下一个不是虚词或者符号的实词。直至正文内容的结尾。
4.根据修改的数组重新遍历。重新整理哈希表的信息。修改原来的新词汇new和里面的特征值。
以上步骤能够重新切分出一些新词。这些新词可以作为关键词提取的一个特征值,它们会起很大的作用。
2 程序模拟
按照方案3进行程序模拟的结果如下图所示:
参考文献
[1] 田学军.PDF文件格式及其转化方法探讨[J],荆门职业技术学院学报,2005,(3):5-31.
[2] 郑家恒,卢娇丽,关键词抽取方法的研究[J].计算机工程,2005,18(9):194-196.
[3] 宋艳娟,李金铭,陈振标.基于XSLT的PDF信息抽取技术的研究[J].计算机与数字工程,2008,36(5):156-159.