科技文献知识挖掘关键技术研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:sunyb_sky
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着我国综合国力的增强以及对科技发展的日益重视,我国的科学技术研究事业进入了高速发展阶段。作为科技研究成果的重要载体和参考指标,科技文献的产生数量和质量也在急剧上升。在科技活动中,科技文献的阅读、分析和参考是科研工作的重要组成部分。在文献信息日益膨胀和丰富的今天,利用计算机对海量的科技文献进行自动化的、深入的信息挖掘和提取,从而更好的为科研人员提供信息化支持,对科技事业的发展具有重要的推动意义。   本文对计算机学科的中文科技文献的文本结构、语言学特点等方面进行了较为深入的分析,并通过模型的构建和实验,对文献中所隐含的信息,特别是有助于科研人员进行快速检索和浏览的信息进行分析和挖掘。本文的主要贡献如下:   1.在已有的研究成果的基础之上,从不同的侧面分析了科技术语的特点,提出了基于对比语料的科技术语抽取方法,从而实现术语的抽取。本文将该算法与抽取规则相结合,实现了完整的术语抽取流程,得到了较理想的实验效果。   2.提出了新的分类体系--科技文献的功能性分类框架,该分类框架着眼于科技文献对读者的作用和效能,力图为读者提供更加实用的阅读参考指标。对计算机科学领域中不同功能性类别的科技文献进行了特征分析和总结,并提出利用功能性特征词以及标题功能性要件作为科技文献功能性分类的分类特征指标。实现了基于改进的KNN-SVM算法的功能性分类方法,并在实验中取得了较理想的结果。   3.在科技文献的功能性分类的基础上,提出了科技文献的形式化主题归纳算法。针对不同的文献功能性分类提出了不同的主题框架,并对框架中各元素的特征和抽取模式进行了总结和分析;利用最大熵算法,根据不同主题框架中不同元素的特点制订了不同的特征选择策略,从而实现了关键信息的自动抽取,在实验中取得了较理想的效果。   本文面向计算机领域的中文科技文献,力图利用数据挖掘技术,从海量的科技文献中挖掘和提取隐含的知识和规律,为科研人员提供更好的信息化支持。在深化e-Science事业的发展、辅助科研工作方面具有一定的实践意义;在数据挖掘领域,针对科研文献信息这种的半结构化的、具有较强的专业性和复杂性的数据源进行隐含知识的挖掘一直是数据挖掘领域中较为复杂的课题,本文在这方面也提供了一定的新的思路。
其他文献
随着互联网的快速发展,互联网上的信息量越来越大,出现了严重的“信息过载”问题,使得用户在面临如此多的信息量往往无所适从。推荐系统主要是对用户与物品之间的交互行为进
随着计算机网络的迅速发展,网络规模越来越庞大,网络中的各种应用和业务数量都在快速增长。在这样的环境下,网络流量数据的分析对全面了解网络服务状况,提升网络服务质量、网
卫星遥感是人类对地观测、分析、描述的有效手段。近年来,随着传感器技术的不断发展,遥感数据获取呈现出多分辨率、多平台的特点。遥感数据的分辨率已达到米级、亚米级。高分辨
随着信息呈爆炸式增长,越来越多的公司和组织部署私有云系统来处理大数据。私有云大数据分析类应用的这种新型负载给体系结构设计带来了新的机遇和挑战。Benchmark是量化体系
随着信息科技的高速发展、“互联网+”时代的到来,网络上存储的数据越来越大,传统的存储方式已经不能满足需求,分布式文件系统成为主流。分布式文件系统将元数据和数据分开存储,
汉语的自然语言理解(NLU)技术在最近的十年中取得了长足的进步,然而这些研究主要是面向领域无关的基础性研究,虽然这些研究也是十分重要的,但是由于基础研究与现实应用之间存
全过程计算机辅助动画自动生成技术(简称动画自动生成技术)是一种新的基于人工智能的动画生成技术。手机3D动画自动生成系统将动画自动生成技术应用于手机短信领域,依据短信内
随着信息网络技术的发展,网络信息安全已成为维护国家安全和社会稳定的重要因素。使用国外软件由于可能存在后门问题,给我国的信息安全带来了巨大的隐患,因此我国大力发展国产基
中国的水产品总产量位居世界第一,水产品在人们的生活中作为极为重要的食物来源,扮演着重要的角色。目前水产品消费市场上的产品质量参差不齐,且缺乏有效的信息管理技术,一旦出现
随着互联网技术的发展,互联网已经成为人们生活的一部分,电子商务也成为了人们的主要消费方式之一。但是在互联网这样一个开放的网络环境中,对于电子商务等对信息安全特别敏感的