论文部分内容阅读
随着信息技术的不断发展,在人们的生活和工作中出现了各种各样的信息资源,这给我们带来了诸多便利,其中文档资源是当前使用最普遍的信息资源之一。PDF格式的文档资源由于其本身具有操作平台的无关性、文档的视觉显示信息和数据信息之间的独立性以及良好的安全性,逐渐地受到了人们的青睐,正慢慢地发展成为电子文档资源在信息系统中共享的主流文档格式。由于PDF格式文档具有这些优势,当前的科技论文一般都要求采用PDF格式来提交。但是在上传提交PDF格式论文时,由于PDF文档是面向显示的,无法对其内容进行直接处理。所以当前一般采用人工识别和提取的方式来处理PDF格式论文的标记信息,但是这种方式随着论文规模的不断增大,不仅效率降低而且错误率也会提高,这给人们在定位所需的论文资源时带来了麻烦。所以如何更好地对PDF格式论文的标记信息进行准确而高效的提取并对它们做一定的语义处理,成为了当前研究的热点。本文主要讨论对于PDF格式的中文科技论文的有效信息的提取、摘要的主题句的提取以及根据提取的摘要主题句对论文进行有效地分类。以此希望能提高论文提交时标记论文的准确率和效率,帮助人们能快速而准确地定位到所需的论文信息资源。其中论文的有效信息指的是论文的标题、作者、论文关键词、摘要等信息。围绕这个主题,本文做了一系列的研究工作,主要的研究内容有以下几个方面:1)对PDF论文的有效信息的提取。由于中文科技论文的格式一般都是固定的,可以利用格式来对论文的有效信息进行提取。并且对于特定的有效信息,它的视觉特征和关键词都是特定的。所以本文将采用论文格式、有效信息的视觉特征和关键词三者相结合的方式来提取论文的有效信息。利用这种方法提取有效信息充分利用了PDF文档的特性,思想简单,能准确、高效地提取出论文的有效信息。2)提取论文摘要的主题句。这部分是对论文摘要所进行的语义处理。毋庸置疑,论文的关键词是对论文主题的一个简练的概括,论文摘要是对论文中心思想的一个概述,但论文摘要中通常会包含一些冗余信息。在此将讨论利用论文的关键词来提取论文摘要的主题句,从而能够使用户很直观的看到最能体现论文中心思想的主题句。所以在此研究了基于遗传算法,利用论文关键词来提取论文摘要的主题句,达到对论文摘要的精简。3)利用提取出来的论文摘要主题句对论文进行分类。由于摘要的主题句能够精炼地概括论文的中心主题,所以可以利用其对论文进行有效的分类。这部分是基于朴素贝叶斯算法,利用Lucne.Net和ICTCLAS中文分词系统进行中文分词形成特征向量,从而对论文进行分类。这一部分的主要目的是通过对上传论文的归类,节约了人工分类的开销,为用户准确地定位到所需的论文资源提供了支持。