Web文本挖掘中的文本分类研究

被引量 : 0次 | 上传用户:vinejue
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet网络的高速发展,信息爆炸时代也随之到来。由于Internet的开放性、动态性、异构性使得用户很难快速、准确的从WWW上获取所需的信息,因此如何有效的从网络上获取有价值的信息成为当前研究的热点。Web文本挖掘技术就是解决上述问题的一种方法,它借鉴数据挖掘的基本思想和理论方法,从大量半结构化、异构的Web文档的集合中发现潜在的、有价值的知识。文本分类技术是Web文本挖掘中一项最重要的技术,随着中文网页数量的急剧增加,中文文本分类也逐渐成为了Web挖掘研究的热点,它的关键技术包括文本分词、文本表示、文本预处理、特征选择以及分类算法,其中特征选择的好坏对文本分类的训练时间、分类的准确率都有显著的影响;TFIDF特征选择是文本分类中使用较普遍而且比较有效的方法,但存在不足,如没有考虑词条文档在分类系统中的分布。本文对传统的TFIDF特征选择算法进行了简单介绍和分析,并对TFIDF方法利用词条信息熵进行改进,提出了一种新的基于TFIDF的特征选择算法。而且通过实验对传统的TFIDF方法和本文改进后的方法进行了比较,证明本文提出的方法有更好的查全率和查准率。Web文本分类的方法较多,常用的如:最近邻分类、贝叶斯分类、决策树、支持向量机、向量空间模型、回归模型和神经网络等。但传统的分类方法存在着不足,当前Web文本分类的方法大都将网页归属到某一特定类中,而许多网页包含多个主题,应该有多个归属类。本文还提出了一种基于向量空间模型的多主题Web分类方法,该方法通过网页与每个类的相似度来计算动态阀值,并对相似度进行聚类,实现了将多主题网页划分到多个类中的目的。最后,也通过实验证明了该方法的有效性。
其他文献
目的建立高血压病血瘀证血管内皮细胞损伤模型,观察模型细胞的活性、形态、超微结构及功能改变,为中医学病证结合细胞模型的建立提供方法学上的借鉴。方法1.四甲基偶氮唑盐(MTT)
本文分两章。第一章将温庭筠的研究情况包括生年、卒年、籍贯、世系、贬谪以及从游庄恪太子问题作了回顾与梳理。在此基础上,本人将研究中的几个问题加以初步的探讨,即论文的
病原菌侵染宿主过程中,抑制宿主防御反应是极为关键的一步,病原菌借此得以在宿主内存活及繁殖。很好的一个例子就是假单胞耶尔森菌分泌的效应蛋白AvrRpt2对宿主“基因对基因”
我国西部地区水力资源丰富,随着该地区水电能源的开发,长隧洞引水式水电开发方式被广泛采用。由于该地区山高谷深,地下水极其丰富,隧洞建设过程中遇到的高地应力、高外水压力和突
国民经济的飞速发展,使洪水灾害造成的损失日益严重。洪水预报作为一项重要的防洪非工程措施,对防汛抗洪工作起着至关重要的作用。沙颖河流域地处河南省腹地,由于地形和气候特点
第一部分胰岛素基因多态性与多囊卵巢综合征的相关性研究目的研究胰岛素(INS)基因多态性与多囊卵巢综合征(PCOS)发病之间的关系,并研究其与PCOS患者体质量指数(BMI)及血清生
当前,科技创新愈发呈现系统性、复杂性和协同性的特征,主体分散式的创新无法完成时代赋予的创新使命,创新链、产业链无缝衔接,需要强化产学研协同创新。产学研协同创新联盟作
在繁重的高中教学中,教师要在教学的过程中缓解学生对教学内容的抵触情绪,为了既照顾到学生的情绪,又在课堂的学习中达到教学的目标,教师就要在教学内容的引入上作为开展教学
【正】九台区第三十一中学针对学校教育教学发展中存在的问题,学习名校的教学改革经验,在"快乐教育"的办学理念下构建了"快乐导学式六步教学法"。通过创设快乐的学习氛围,培
中学生物学实验课教学是一类探究性教学活动,也是中学生物学课堂教学的基本形式之一。生物学实验课本身的特点及其在生物学教学中的地位,决定了它在生物学教学中的重要作用。