基于深度学习的文档分类方法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:gongchp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的发展,在互联网和现实世界中存在着大量的数据,尤其在互联网上,信息量巨大并以指数级的速度增长,包括文档、视频、音频等。其中文档信息又对人们的生活尤为重要。但是从海量的文档信息中获取对人们有意义的数据变得很困难,而文档分类是从海量的文档中提取信息的前提,所以从大量的文档中进行文档分类就显得很重要。自从文档分类技术在1957年第一次被美国科学家H.P.Luch提出,文档分类逐渐成为数据挖掘领域一个重要的课题,经过多年的发展,文档分类技术已经有了很多效果良好的方法,并已经有良好的应用,但是当文档数量特别大的时候,如何选取文档的特征以便于快速有效的进行文档分类就成为一项重大挑战性任务,本文利用深度学习的技术及无监督的学习方式解决海量文档的分类问题。本文首先介绍了常用的文档分类技术和文档分类的评价标准,然后分析了现有技术的缺点,介绍了深度学习的发展历史和主要的技术思路以及如何用深度学习方法规避现有的文档分类方法的缺点。最后,在现有的深度学习模型限制的波尔兹曼机RBM的基础上提出一种新的模型,用这种新的模型能够很好的提取文档的特征,再根据这些特征和聚类的方法进行文档的分类。
其他文献
<正>8月6-7日,首届中国智能教育大会在北京隆重召开。本次大会是在"人工智能+教育"的国家重大战略背景下召开的,以"人工智能与未来教育"作为主题,旨在推动人工智能与教育的深
当前各大高校计算机实验室大都配备了大量性能优异的计算机,为了使计算机实验室功能得以实现,需要不断对计算机软硬件进行更新与升级换代。此外,为尽可能降低计算机软硬件升
以海南省乐东黎族自治县旧城改造立面测绘项目为依托,提出了基于三维激光扫描的立面测绘作业流程,较全面地总结了该技术在建筑立面空间数据获取、数据处理和立面绘制方面的关键
目的 :探讨急性心肌梗死后心律失常的发生时间规律。方法 :回顾分析 1995年 1月至 2 0 0 1年 12月我院收治的心肌梗死患者 2 6 8例 ,分时段统计急性心肌梗死后心律失常发生的
本文主要采用文献资料法、实验法、逻辑推理法,以拉拉绸健身操成套动作为研究对象,主要从拉拉绸健身操成套动作创编来进行分析阐述。
中国近代儿童文学理论发展对中国儿童文学的现代化进程起着重要的铺垫作用。在中国近代儿童文学理论发展中,梁启超、徐念慈等人起了奠基作用。中国近代儿童文学理论发展的脉
设计制造协同关联平台是基于3D MBD PPR统一数据模型而建立的。在关联平台中,以产品型号MBD模型为单一数据源,建立实时的3D PPR动态数字样机,将设计数据、工艺数据、工装数据
我国是一个农业大国,"三农"问题直接关系到国民生计和经济发展,为了能够解决农村发展过程中一系列问题,需要加快推进现代化农业的发展进程。近年来农民专业合作社得以快速起
目的 评价国产环丝氨酸胶囊在中国健康人体中的药动学及生物等效性。方法 采用双周期交叉试验设计,24名健康男性受试者单次口服国产和进口环丝氨酸胶囊500mg,采用LC-MS/MS测
当前,中国乡村社会控制体系正处在结构重组和变迁的过程中。本文分析了当代中国乡村社会控制面临的新情况,探讨了重构乡村社会控制体系的目标和农村基层组织的职责。