论文部分内容阅读
随着我国综合国力的增强以及对科技发展的日益重视,我国的科学技术研究事业进入了高速发展阶段。作为科技研究成果的重要载体和参考指标,科技文献的产生数量和质量也在急剧上升。在科技活动中,科技文献的阅读、分析和参考是科研工作的重要组成部分。在文献信息日益膨胀和丰富的今天,利用计算机对海量的科技文献进行自动化的、深入的信息挖掘和提取,从而更好的为科研人员提供信息化支持,对科技事业的发展具有重要的推动意义。
本文对计算机学科的中文科技文献的文本结构、语言学特点等方面进行了较为深入的分析,并通过模型的构建和实验,对文献中所隐含的信息,特别是有助于科研人员进行快速检索和浏览的信息进行分析和挖掘。本文的主要贡献如下:
1.在已有的研究成果的基础之上,从不同的侧面分析了科技术语的特点,提出了基于对比语料的科技术语抽取方法,从而实现术语的抽取。本文将该算法与抽取规则相结合,实现了完整的术语抽取流程,得到了较理想的实验效果。
2.提出了新的分类体系--科技文献的功能性分类框架,该分类框架着眼于科技文献对读者的作用和效能,力图为读者提供更加实用的阅读参考指标。对计算机科学领域中不同功能性类别的科技文献进行了特征分析和总结,并提出利用功能性特征词以及标题功能性要件作为科技文献功能性分类的分类特征指标。实现了基于改进的KNN-SVM算法的功能性分类方法,并在实验中取得了较理想的结果。
3.在科技文献的功能性分类的基础上,提出了科技文献的形式化主题归纳算法。针对不同的文献功能性分类提出了不同的主题框架,并对框架中各元素的特征和抽取模式进行了总结和分析;利用最大熵算法,根据不同主题框架中不同元素的特点制订了不同的特征选择策略,从而实现了关键信息的自动抽取,在实验中取得了较理想的效果。
本文面向计算机领域的中文科技文献,力图利用数据挖掘技术,从海量的科技文献中挖掘和提取隐含的知识和规律,为科研人员提供更好的信息化支持。在深化e-Science事业的发展、辅助科研工作方面具有一定的实践意义;在数据挖掘领域,针对科研文献信息这种的半结构化的、具有较强的专业性和复杂性的数据源进行隐含知识的挖掘一直是数据挖掘领域中较为复杂的课题,本文在这方面也提供了一定的新的思路。