大数据知识工程中基于自动编码器的文本分类研究与应用

来源 :齐鲁工业大学 | 被引量 : 1次 | 上传用户:rscgmy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现如今随着科学技术的发展,网络上的数据越来越多,尤其是随着网络的不断发展,网络上的信息量也急剧增长,信息的格式(视频、文本、音频等)也变得多样化。其中,文本信息对人们日常生活非常重要,怎样才能从杂乱无章的文本中获取有用的信息变得困难。高维的文本数据增加模型训练的复杂度,给大数据知识工程中信息的提取带来难度。大数据知识工程中最常用的文本处理方式是文本分类,通过文本分类技术高效地提取文本中隐藏的信息变得尤为重要。在1957年,美国科学家H.P.Luch第一次提出了文本分类技术,之后文本分类技术一直都是数据挖掘领域研究的重要课题,通过多年研究发展,已经研究出了很多有效的文本分类方法,而且很好地应用在实际生活中。本文基于深度学习中发展较好的自动编码器以及其无监督的特征学习方式来研究上述问题。(1)针对以往对于TFIDF的研究不足,提出了一种新的TFIDF计算文本特征词权重方法,将提出的新TFIDF与传统的TFIDF方法和张玉芳等人改进的TFIDF方法进行对比,实验证明提出的改进的TFIDF方法能更准确的计算特征词权重。(2)针对传统自动编码器特征提取效率不高问题,提出了一种新的混合自动编码器模型,先用两层堆叠的稀疏自动编码器初步学习文本特征,学习到的特征矩阵作为卷积神经网络的输入,进一步对文本特征进行学习,减少模型训练参数,提取更加准确的文本特征,降低文本维度。最后将文本特征送入SVM分类器,得出分类结果,将提出的混合模型和单一的稀疏自动编码器在分类准确率上进行对比分析实验,实验证明提出的混合模型提高了特征提取的效率和分类准确率。(3)为提高混合模型训练效率,减少混合模型训练时间,将混合模型训练过程放在Spark平台上进行分布式处理,并与单机运行处理文本数据的效率进行对比。实验证明使用Spark平台并行化处理降低了混合模型的训练时间,提高分类效率。
其他文献
农业的经济发展关系我国国计民生,不断出台的惠农贷款政策,使小额信贷规模不断扩大,随之而来的就是小额信贷加速发展过程中的风险问题。本文探究了国内有关学者在关于农户小
背景:单纯性化学治疗儿童复发难治急性白血病效果较差,异基因造血干细胞移植是治疗该类疾病的唯一有效措施。但由于我国计划生育政策,患者获得同胞人类白细胞抗原相合供者的
本文讨论了南音之始“候人兮,猗”产生的地域、音乐特征及其对我国南方音乐发展的影响。文章首先考证和辨析《吕氏春秋·音初》所记禹取涂山之女为妻之涂山在江州今重庆
道德教育主体性价值的确立不仅是道德教育的本质内涵,是道德的特殊本质--"实践-精神"的体现,而且也是培养全面发展的人的客观要求.人的全面发展的实质就是人在自己自由自觉的
目的运用光镜、电镜研究朗格汉斯细胞(Langerhans Cell,LC)在玫瑰糠疹(pityriasis rosea,PR)发病中的作用。方法免疫组化链霉素生物素蛋白过氧化物酶(SP)法检测分化群1a(CD1a
有色金属行业是国家重要的基础产业,与制造业、交通运输、房地产业以及航空航天等行业高度相关,为各行业的发展提供了关键资源。目前,我国有色金属行业面临着日益激烈的国际竞争,投资增长放缓,供需矛盾突出,产能严重过剩,转型升级迫在眉睫。一方面主要产品附加值不高,生产成本攀升,使得有色金属行业整体盈利水平较差;另一方面,产品价格随国内外宏观经济变化明显,近年来我国有色金属行业企业盈余波动程度大。基于企业的持
目的:研究炙甘草汤改善含蒽环类方案化疗的乳腺癌患者心脏毒性的临床效果。方法:选择既往无心血管病史,术后病理证实IIa-IIb期的早期乳腺癌,无全身其他脏器转移,既往均未接受
数据库的发展水平越来越被看作与国家经济实力、科技成就、外交地位、文明程度等同样重要,数据库的发展对各行各业产生着深刻的影响,教育也一样。本文浅谈了数据库系统在教育
背景:本研究旨在检测抗凋亡基因Livin在人脑胶质瘤TJ905细胞中的表达;观察化疗药物替莫唑胺作用于人脑胶质瘤TJ905细胞及其干细胞时的体外抗瘤效应;以胶质瘤细胞及其干细胞为模
目的观察合募配穴法针灸治疗中风后便秘的临床疗效。方法将68例符合纳入标准的中风后便秘患者随机分为治疗组35例和对照组33例。治疗组采用合募配穴法针灸治疗,对照组采用口