基于关联规则的中文文本自动分类算法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户：xiaohan521325

【摘要】

：

面对浩如烟海的电子信息,如何帮助人们有效地收集和选择感兴趣的信息,如何帮助用户在日益增多的信息中发现潜在有用的知识已成为信息技术领域的热点问题。数据挖掘就是为解决

【作者】

：

杨柯

【出处】

：

重庆大学

【发表日期】

：

2007年期

【关键词】

：

文本挖掘特征向量表示文本关联分类关联分析

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

面对浩如烟海的电子信息,如何帮助人们有效地收集和选择感兴趣的信息,如何帮助用户在日益增多的信息中发现潜在有用的知识已成为信息技术领域的热点问题。数据挖掘就是为解决这一问题而产生的研究领域。自90年代产生以来,对数据挖掘的研究已经比较深入,研究范围涉及到关联分析、分类分析、聚类分析、趋势分析等多个方面。由于现实生活中绝大部分信息资源是以非结构化数据的形式存在,而数据挖掘则普遍以结构化数据如关系数据库中的数据为对象,因此如何对非结构化数据进行挖掘成为了一个重要的研究课题。在常见的非结构化数据如文本、图象、视频中,文本数据是应用最为广泛的一种形式,常用于数字图书馆、产品目录、新闻组、医学报告、组织及个人主页。在自然语言理解、文本自动摘要、信息提取、信息过滤、信息检索等领域,文本挖掘技术都有着广泛的应用,因而在数据挖掘领域具有较高的商业价值。本文以文本数据为研究对象,对文本关联分类进行研究,主要包括文本特征提取、选择、表示和文本关联分析、文本关联分类,并提出更有效的文本关联分类算法。本文的研究工作和创新内容包括以下几个方面:①特征选择、向量空间表示方法研究目前文本分类中常用的文档表示方法主要有布尔矩阵、词频矩阵等表示形式。采用布尔矩阵表示文档向量,优点在于表示方式简洁且计算效率比较高,缺点在于只是考虑特征在文档中出现与否会使得表示不够精确;而使用词频向量表示虽然表达比较精确,但简洁性相对较低,生成向量空间需要更多的计算。本文提出特征权重阈值的方法来更加准确的表示文本向量空间,从而改善文本分类质量。②文本关联分析的研究文本关联分析中,由于文本集具有高维稀疏的特性,采用Apriori等传统的关联挖掘算法效率比较低,而采用Fp-growth等算法又会使得其挖掘Fp-tree时递归的次数比较多,另外,传统的关联挖掘需要自己指定最小支持度阈值,这在文本关联挖掘中需要反复摸索实验,不好确定。针对以上不足,本文提出根据文本训练集规模动态调整与COFI-tree压缩结构相结合的DL-COFI算法,该算法可以先根据训练文档规模动态确定L的值,再利用COFI算法进行挖掘,动态确定全局最频繁的L个规则。③综合置信度与支持度对未知文档分类传统的CBA、ARC等分类算法对修剪策略与分类预测均考虑得不够全面,在修剪策略方面,很多方法均不能取得满意的效果,本文结合了两种常用修剪策略的优点,提出超规则-J-Measure算法;在对测试文档分类方面,CBA只考虑覆盖样本的第一条规则,ARC只考虑计算覆盖文档某个类的置信度之和,虽然有综合考虑置信度与支持度的研究,但却忽略了二者之间的权重关系。本文权衡置信度与支持度之间的比例关系,提出了两个影响因子进行综合计算类区分度的CDD算法。最后,利用提出的关联分类算法与原有的传统关联分类算法相比,能够得到较好的查全率、查准率、F1值,达到了提高分类质量与分类效率的目的。

其他文献

“物色”考辨

期刊

《昭明文选》刘禹昌

不对称信息下应对突发事件的供应链回购契约协调模型

在分析不对称信息下供应链回购契约协调模型的基础上,设计了不对称信息时应对突发事件的供应链回购契约协调模型,该模型通过合理分配突发事件新增的额外成本,从而获得供应链

期刊

不对称信息突发事件回购契约协调

炉膛中MgH2的放氢和脱硫脱硝机理研究

本文提出在炉膛温度条件下,用MgH2颗粒同时实现劣质燃料的助燃和脱硫脱硝;研究了MgH2颗粒的放氢特性,助燃效果和脱硫脱硝机理。MgH2放氢过程实质上是MgH2的化学分解过程,同时

学位

MgH2放氢热力学放氢动力学助燃脱硫脱硝

城市历史文化景观与周边环境关系处理的原则

当前,在城市化急速发展的背景下,城市现代化建设同历史文化保护之间不可避免地存在着许多矛盾。随着现代城市旅游的发展和保护观念的加强,人们积极开展了对城市历史文化景观

期刊

历史文化景观周边环境关系原则

青少年近视相关因素调查研究

目的:了解青少年近视的影响因素。方法:以到医院就诊的2 089例青少年近视患者为调查对象,利用自制调查问卷了解调查对象的视力状况以及遗传、饮食、运动、睡眠、用眼强度、读

期刊

青少年近视近视眼致病因素

国家—社会关系视域下的新型城镇化推进困境及路径

新型城镇化不仅涉及政治、经济、文化等各相关领域中复杂的具体社会关系,而且直接蕴含着国家-社会力量干预等宏观社会关系。而国家-社会宏观关系的处理方式及其效果直接决定

期刊

新型城镇化国家-社会关系社会力量

多孔泡沫材料的声吸收特性

为了结合泡沫金属兼有的高吸声和高热传导两种特性以进一步提高其吸声性能,回顾了泡沫金属材料的应用和声学建模;通过对泡沫金属和用于制造泡沫金属的高分子基体材料的实验,

期刊

泡沫金属声波吸收声学建模

预制混凝土工业化住宅结构体系研究

论文在国内外预制混凝土结构研究成果总结的基础上，结合试验研究，对万科企业股份有限公司研发的国内首栋预制混凝土工业化住宅试验楼进行实证分析，主要工作包括：(1)通过对试验楼

学位

工业化住宅预制混凝土叠合楼板评价

法务会计理论体系研究

法务会计是在市场经济和法制化发展过程中产生的会计学分支，它是会计学与法学相结合的边缘学科，也是当前会计学界研究的一个热点。法务会计人员可参与各种涉及财务事项的经济纠

学位

法务会计财务会计法律审计

《枫桥夜泊》英译文的及物性和意象分析

及物性属于系统功能语法中的概念功能,通过句式的选择反映人对主、客观世界的认识;“意象”是认知语言学从心理学引入的重要概念,指词语在心里唤起的主观体验,二者之间具有描

期刊

古诗英译及物性认知意象

基于关联规则的中文文本自动分类算法研究

与本文相关的学术论文