基于多模型融合的新闻文本分类研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:tlswedu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类是通过训练一个分类模型来对未归类文本进行分类的一项技术,目前在许多应用领域取得了一定的成果,但主要集中在邮件和微博等短文本上,针对类似新闻这样的长文本仍存在分类效果不理想的现象,有待更进一步的研究。现有的分类方法虽然能在一定程度上提高分类的准确性,但是仍存在特征高维和稀疏的问题。针对上述问题,本文提出一种基于三支决策的特征选择算法,在特征选择过程中融入三支的思想对分类方法进行改进,增加样本空间中特征词的考察维度,在保证分类性能的前提下减少提取的特征词数量,改善特征高维与稀疏的问题。同时,本文设计了一种多模型融合的文本语义生成模型(TR-CNN模型),有效地提升深度学习模型在长文本领域的语义生成。本文的主要研究工作包括:1.针对传统的特征选择算法存在特征高维和稀疏的问题,本文提出一种基于三支决策的特征选择算法。首先,对传统特征选择算法进行系统分析和研究,发现传统特征选择算法在给特征词赋权重时比较单一和片面;其次,结合三支决策的思想,利用双决策函数投票的方式对特征词进行筛选,将样本空间的特征词划分到正域、边界域和负域中;然后,对边界域中的特征词做进一步地处理,确定最终的特征集合;最后,在THUCNews数据集上进行实验,发现文中提出的方法能够提高特征词的质量和降低特征词的数量。2.针对深度模型在长文本分类任务上表现不理想的问题,本文设计了一种基于多模型融合的文本语义向量生成模型。由于循环神经网络隐藏层的信息传递方式与人脑阅读时的神经运作机制相似,Transformer模型对于全局文本语义信息的把握要强于其它的深度学习模型。因此,本文将循环神经网络与卷积神经网络结合生成文本局部语义,同时使用Transformer模型生成文本全局语义,再将局部语义与全局语义进行拼接,从而构造一个新的语义向量。本文对设计的基于多模型融合的文本语义向量生成方法,在THUCNews数据集上进行实验,验证了其有效性。
其他文献
七、有效地完成工作定额 喜忧全由数量来决定 推销员在不断地与推销数量竞争,与同事竞争,与其他公司的推销员竞争。总的来说,实际上还是在与推销数量竞争。我们推销员可以根
在对水利现代化评价中一些关键问题进行分析的基础上,初步构建了我国水利现代化评价指标体系和评价方法,并对我国及31个省级行政区2010年水利现代化水平进行了初步评估。经测算
目的:研究HIV派生的miR99能否引起巨噬细胞内自噬及对自噬功能的影响,从而进一步对HIV慢性免疫激活的机制进行探讨。方法:1.巨噬细胞获得:人单核细胞白血病细胞(THP-1)在佛波
目的:本研究重点探讨柔肝化纤颗粒联合骨髓间充质干细胞治疗乙肝肝硬化肝肾阴虚证的临床疗效及安全性,以期为中医药干预骨髓间充质干细胞移植治疗乙肝肝硬化提供临床依据。方
介绍了一种采用质量测量法的液体微小流量测量系统的工作原理与工作过程.系统采用全弹性连接方法设计,避免了常规质量测量法流量测量装置中非弹性连接管路造成的测量误差.采
<正>2014年5月22日,国家互联网信息办公室宣布:为维护国家网络安全、保障中国用户合法利益,我国即将推出网络安全审查制度。该项制度规定,关系国家安全和公共利益的系统所使
<正>有人就有情,有情就有歌。每一地的情歌,每一首的情歌,都应该有着自己独特的美质。而它们世代流传下来,这就是经典。时间,是一种流传;空间,也是一种流传。空间上流传越广
目的:观察肝宁方对慢性乙型肝炎患者的综合疗效,全面、客观的评价肝宁方对慢性乙型肝炎患者生存质量的影响。方法:病例选自2015年6月-2016年8月我院国医堂门诊病人,将96例符
研究工程材料的弹塑性应力应变简化模型,主要包括理想弹塑性模型、线性强化弹塑性模型、幂次强化模型与Ramberg-Osgood模型,以及应变的表示法.
<正>姜黄素是中药姜黄的主要成分之一,其在抗新生血管生成方面具有显著作用,本文概括了姜黄素抗新生血管作用的研究进展及相关机制,主要有抑制血管内皮细胞增殖、黏附及迁移,