基于科技文献的中文文本分类算法研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户：kyd1472

【摘要】

：

文本分类最初是应文本信息检索的要求出现的,但是随着文本数据的激增,传统的分类研究方法己经不适合大规模文本分类,于是文本数据挖掘应运而生。作为文本数据挖掘的一个重要

【作者】

：

王俊英

【机构】

：

燕山大学

【出处】

：

燕山大学

【发表日期】

：

2007年期

【关键词】

：

文本分类向量空间模型分词特征选择权重

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

文本分类最初是应文本信息检索的要求出现的,但是随着文本数据的激增,传统的分类研究方法己经不适合大规模文本分类,于是文本数据挖掘应运而生。作为文本数据挖掘的一个重要功能,文本分类技术日益成为研究热点。科技文献的行文和格式都有规范的特点,但其科技文献的自动分类问题却没有得到足够的关注;与此同时,科技文献分类问题的需求却与日俱增。针对这一现实需求,本文以计算机类科技文献为例,对科技文献的分类问题进行了深入研究。首先,对中文文本分类算法进行了深入研究,从分类算法的应用和分类效果角度出发,分析了各个算法的分类思想、文本预处理方法、特征项的选择和特征提取方法以及算法实现关键步骤等,并提出了评价和分析几个分类算法的定理和方法。其次,分析了科技文献的行文规范特点,提出了关键词抽取算法。科技文献的标题、关键词和摘要部分很精简的反映了文章的核心内容,同时与文档主题内容不相关的描述很少,算法直接从该部分内容抽取关键词集,取代了传统文本分类算法的中文分词。然后,提出了一种基于科技文献的文本分类算法,实现了对计算机类科技文献的层次化分类。应用科技文献自身明显的层次关系结构特点,抽取各个类别文档的关键词集,构建层次化分类模型,有效地提高了科技文献的分类精度。实验结果充分表明,所提出的层次化分类算法的分类效果明显优于传统的平面化分类算法,有更高的准确率和查全率。

其他文献

基于FCM的改进WM算法及在模糊系统参数优化的应用

许多工业生产存在非线性、时变性、维数高的等不确定性特点，因此较难用传统的建模方法进行精确地描述。为构造一个合理的、可追踪的模型就需要引入模糊性的概念，并且理论已经证

学位

参数优化数学建模样本数据模糊规则提取山峰函数减法聚类算法

基于音频分析的视频摘要技术研究

数字视频属于国家重点发展的信息产业领域，宽带网络和数字电视的迅速发展，使得视频点播、交互电视、视频网站等应用都将面临大量涌现的数字化视频数据，对视频摘要技术的研究对基

学位

视频摘要技术音频信息能量阀值短时能量变化

金融年报语义网中本体自动扩展与语义标注方法

语义网提出以来，本体(ontology)正在成为人工智能和知识工程中的一种重要工具，在知识的获取、表示、分析和应用等方面具有重要的意义。其中，本体的构建与扩展是本体研究的核心和

学位

语义网本体自动扩展语义标注方法HTML文档转换

求解大学排课问题的启发式方法

课程编排对每个大学的管理部门来说都是每个学期不得不面对的一个挑战。大学课程编排问题是一个NP完全问题。对大多数大学教育机构来说，课程编排是最普通最难的问题之一。课程

学位

高等院校课程编排启发式算法

基于分块链接的网页排序并行算法设计与实现

网页和纯文本的结构差异性决定了传统的信息检索排序算法不能完全适应网络发展，基于链接分析的网页排序算法便应运而生，并成为现代搜索引擎的关键技术。知名的搜索引擎公司在对

学位

分块链接网页排序并行算法链接分析技术排序结果

微博检索技术研究与实现

本文从研究和设计的角度出发，对微博检索系统的相关理论与技术对比分析，提出改进，主要的改进工作为:第一，从伪相关反馈扩展角度出发，每个反馈的文档依据查询事件的爆发时间分布具

学位

社交网络检索系统相近词随机性差异框架

几种投影分析方法及其在生物特征识别中的应用

生物特征识别的几个重要步骤是：预处理、特征抽取、分类。而特征抽取在生物特征识别的过程中占有重要的地位。投影分析方法是常见的一类特征抽取方法。常见的投影分析方法有很

学位

生物特征识别投影分析方法核最小均方误差线性鉴别

基于最大熵的语义角色标注系统

自然语言理解是计算机科学领域与人工智能领域中的一个重要方向，它主要研究用自然语言在人与计算机之间进行有效交流的理论和方法。计算机理解自然语言的前提条件是能够对自然

学位

最大熵语义角色标注系统评测标准特征模板

基于AJAX的轻量级Web客户端开发平台研究与实现

随着网络的普及和Web技术的不断创新,管理信息系统(MIS)的体系架构发生了重大的变化,从两层的C/S架构发展到三层的C/S/S或B/S/S架构.由于C/S/S本身的局限性, B/S/S架构的系统

学位

AJAXWebMIS轻量级Web客户端开发平台管理信息系统人机交互界面

企业流程审批移动平台设计与实现

随着无线技术的发展,无线网络速度的逐步提高,移动互联网的使用范围也逐渐扩大。安卓以及i OS技术越来越收到人们的追捧,成为移动互联网领域的热议技术。并且跨平台的HTML5已

学位

移动化办公HTML5CSS3

基于科技文献的中文文本分类算法研究

与本文相关的学术论文