文本分类中特征降维方法的研究与应用

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户：loongzhou

【摘要】

：

随着信息化时代的到来,电子文本数量呈现高速增长的趋势,中文文本分类技术的需求与日俱增。在文本分类的过程中,文本数据的半结构化甚至非结构化的特点使得其分类存在着特征

【作者】

：

段丹丹

【出处】

：

南京邮电大学

【发表日期】

：

2004年期

【关键词】

：

中文文本分类特征降维 CHI方法 PCA方法 BERT模型多模型融合

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着信息化时代的到来,电子文本数量呈现高速增长的趋势,中文文本分类技术的需求与日俱增。在文本分类的过程中,文本数据的半结构化甚至非结构化的特点使得其分类存在着特征高维的问题。对于此类问题,本文在主流的特征降维算法基础上进行改进,并将其应用于新闻文本领域中,主要工作如下:1.针对传统特征降维方法的不足,提出了一种基于CHI(Chi-square Statistics)和PCA(Principal Component Analysis)的混合特征降维方法(CHI-PCA)。该方法使用CHI方法初筛出类别特征词,之后使用PCA方法进行二次降维,进一步精简特征空间。经过与传统特征降维方法DF、IG、CHI和PCA方法的对比实验,结果显示,在不同特征维度下,所提方法在Softmax回归以及SVM分类器下的整体分类效果均优于对比方法,F1宏平均值最高提升了2.7%,在每个类别上的分类效果也是可观的,F1值最高可达97.2%。实验结果表明了CHI-PCA方法的有效性,在降低特征维度的同时,还提高了分类性能。2.针对短文本因受字数限制而在分类中存在的特征稀疏问题,提出了一种基于BERT(Bidirectional Encoder Representations from Transformers)模型的短文本分类算法。该算法使用BERT预训练语言模型对短文本进行句子层面的特征向量表示,结合Softmax回归分类算法进行分类,改进了传统特征降维方法不能从语义层面上进行建模的缺点,且可以解决一词多义问题。通过与基于Text CNN模型的短文本分类算法的对比实验,结果显示本文算法在测试集上的整体F1值最高可达93%,高出基于Text CNN模型算法6%。实验结果表明了所提方法的有效性,提高了短文本的分类性能。3.针对中文文本分类技术在新闻领域的应用,提出了一种基于多模型融合的新闻文本分类算法。该算法基于以上研究,在学习阶段分别使用CHI-PCA方法结合SVM分类算法对新闻内容进行学习,以及使用BERT模型结合Softmax回归算法对新闻标题进行学习,随后在分类阶段将学习到的两个模型采用概率值最大的策略进行融合。通过在真实新闻语料库上的实验,结果显示模型融合后的分类效果优于融合前,表明了所提方法的有效性。

其他文献

文化自信的生成逻辑及涵育路向研究

文化自信是更基础、更广泛、更深厚的自信。文化自信是中国特色社会主义道路自信、理论自信和制度自信的最深沉力量,是新时代培育和践行社会主义核心价值观的重要途径。沿着

学位

文化自信语义逻辑价值逻辑涵育路向新时代

国有企业党员量化管理研究与实践

党的十八大以来,以习近平同志为核心的党中央高度重视加强党员教育管理工作,推动形成全党从严从实抓党员教育管理的良好态势。习近平总书记在全国国有企业党的建设工作会议上

会议

税收占比对地方债发行利率的影响分析

新《预算法》放开了对地方政府发行债券的限制,各省(自治区、直辖市、计划单列市)地方政府可在国务院批准的限额内通过发行地方债券筹措资金,地方政府债券开始进入“自发自还

学位

税收收入地方债发行利率

情系老区关爱未来——山西省委党史办开展庆“六一”送温暖活动

在"六一"国际儿童节来临之际,山西省委党史办公室主任于若洁,副主任张越轶、钟启元、巨文辉,于5月29日带领单位扶贫工作队到扶贫点吕梁市中阳县车鸣峪乡河底小学开展"关爱贫

期刊

党史办

中小学编程教育现状调查研究——以山东省为例

近年,随着智能时代的快速发展,编程能力已经成为当代人才的必备素养之一。中小学普及编程教育成为必然发展趋势。本研究采用实证调查研究的方法,对山东省内中小学信息技术教

期刊

编程教育调查研究现状评测

超临界CO2输送管道X65钢的腐蚀行为研究

碳捕获和封存（carbon capture and storage,CCS）技术被国际能源署（IEA）认为是在不影响能源安全和全球经济发展的前提下应对全球气候变化、减少大气中CO2浓度的重要技术途径之一[1

会议

以“高标准保护”引领山西生态环保工作

习近平总书记在2020年5月视察山西时首次提出，坚持治山、治水、治气、治城一体推进的生态环境“四治”。“四治”全新要求不仅是针对以环境污染为表象的城市病、生态症开出了

报纸

Janus kinase抑制剂筛选平台建立

目前已经有上市的JAK抑制剂tofacitinib、baricitinib、ruxolitinib、upadacitinib共四个药物。他们或多或少都有药物本身导致的致肿瘤风险或者非选择性抑制JAK2靶点导致的贫

学位

JAK1/3JAK2JAK抑制剂大鼠CIA血生化

“三全育人”视域下高校学生社区治理研究

高校学生社区是高校育人的有机组成部分,是高校学生学习生活的重要场所。学生社区在分担高校教育管理职责、创新人才培养模式方面具有不可或缺的地位,建设和优化学生社区治理体系已经成为高校教育改革的重要内容,既关系到大学治理能力的提升,更关系到立德树人根本任务的全面落实。“三全育人”的提出旨在解决高校为谁培养人、如何培养人的根本问题,它不仅明确了高校立德树人的根本任务,更为学生社区的内部治理提供了可供借鉴的

学位

“三全育人”高校学生社区治理

胸椎椎管内脊髓外肿瘤误诊2例

目的探讨胸椎椎管内脊髓外肿瘤误诊的教训。方法与结果收集两例长期误诊患者。例1:患者,女,49岁。因"左下肢疼痛伴发抖3年"来我院就诊。患者长期辗转多家医院就诊,诊断不明。

会议

文本分类中特征降维方法的研究与应用

与本文相关的学术论文