文本分类相关算法的研究与实现

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:Richie911
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类一直是数据挖掘领域中的研究重点之一,其目的是为了能将大量的并且无类别标注的文档进行类别上的归类。文本分类还是信息检索和信息过滤等信息处理技术的重要基础。所以提高文本分类的技术水平会给目前的信息科技提供一些很有利的支持点,来发展关于文本相关的信息应用科技。目前文本分类的技术早已从之前的基础理论研究发展成为以算法的简便程度和算法的速度为研究目的的研究层次。所以更好的算法是我们追求的目标之一。文章在概述了文本分类的基本概念和算法的基础上,综述了其中文本分类整体过程的一些情况,并重点讲述了特征词选择算法和分类算法部分。然后提出特征词提取部分算法中的二元正态分离法的改进。文章分析了原有算法未加入词频统计的概念和因此产生的不足,提出了分散度的概念,并设计了加入分散度概念的改进算法公式,通过具体的文本分类实验表明该算法的改进在中文文本分类应用中较原算法和其他特征词选择算法在分类效果上比较具有优势。文章还对二元正态分离特征词选择算法及其改进形式进行了相关实验分析,结果表明二元正态分离算法在分类表现上要优于其他算法,并且改进的算法强于源算法,该算法在最优特征词数量上也具有优势,文章还对二元正态分离特征词选择算法在支持向量机中的核函数使用情况进行实验对比分析,以及对惩罚因子和径向基核函数的参数的寻优实验。
其他文献
化工生产具有专业性、特殊性,极其容易引起环境污染事故。随着化工行业的快速发展和化工产品的不断丰富,危险化学品事故和环境污染事故的风险也在相应地增加。所以,为了有效
上海地处我国黄金海岸线中部和长江出海口的交汇点,地理位置优越,是我国沿海经济带与沿江经济带聚汇点,是长江经济新支撑带以及长三角地区的中心城市和经济龙头,肩负着我国建
本课题主要以《杭州市公共自行车服务系统视觉形象设计》项目为案例,基于设计美学,围绕杭州公共自行车亭棚及锁止器等具体设备的形态美展开研究。杭州市公共自行车服务系统视觉
尽管公益诉讼早在古罗马时期就已存在,但随着市场经济的运行,伴随社会化大生产和经济的不断发展,环境污染、行业垄断等侵害公共利益的事件常有发生,此时单纯靠某个公民或者某个小
潜艇低速巡航时,机械噪声是潜艇的主要噪声源,机械设备工作时产生的振动能量,通过艇内结构传递到艇壳,再向水中辐射声能量。采用隔振设备可以有效降低通过结构传递到艇壳的振动能
地震是一种常见的自然灾害,目前对地震的预报,尤其是准确的短临预报是一个世界性难题。为了避免地震带来的重大灾害损失,寻找一种有效的临震预警方法成为地震研究工作者努力的一
旅游业作为一种朝阳产业,具有关联度高、综合性强等特点,对国民经济起到拉动作用,尤其是入境旅游可以为国家带来较多的外汇收入,所有国家无一例外的支持发展入境旅游业。入境旅游
中韩文化交流已经有几千年的历史,从文化、思想、宗教等各个方面来看,两国相互影响,在文化亲缘上有着密切的联系,存在着许多相通之处,并且以文化方面突出。两国的文学作品,尤
随着人民生活水平的不断提高,人们对环境卫生和自我健康日益重视。与此同时,工业化的迅猛发展带来了各种环境污染问题,伴随着这些环境污染问题的出现,大量的致病菌和条件致病菌在
在“小政府,大社会”的社会治理模式下,非营利组织在经济发展、社会公益等方面发挥着重要的作用,较好地弥补了政府公共产品供应不足的缺陷,成为社会中不可或缺的主体。近年来,虽然