论文部分内容阅读
在日常的学习和工作中,PDF文件和WORD文档一样,是一种文件格式.PDF文件有自己的优点,例如不易被误改,但它也有一些不方便的缺点,例如查找文档的信息没有WORD文档方便,特别是在需要查找多个PDF文档是否包含一些用户感兴趣的信息的情况,这就涉及到PDF文件的信息抽取问题.本文阐述了一种使用Java开源工具PDFBox处理相关信息抽取的PDF多文件信息抽取的有效方法.