论文部分内容阅读
基于图像处理和版面分割等技术,提出一种可快速检索中文期刊论文得到题目、作者、摘要等结构化数据的方法。该方法可以对中文期刊论文的PDF文件或图像文件进行分析处理,自动形成一些结构化的图像块数据,最终转化为结构化的文字数据,以帮助用户准确地获取或检索论文信息。实验结果表明,本方法对中文期刊论文进行数据采集具有一定的有效性。