文本分类中特征降维算法的研究与应用

来源 :电子科技大学 | 被引量 : 12次 | 上传用户:shashh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,由于互联网数据大规模增长而导致文本数据的高维稀疏性,为文本分类技术发展带来了严峻的挑战。因此,为应对爆炸式数据增长问题,数据特征降维算法成为国内外学术界日益研究的热点之一。特征降维,即从特征集合中挑选或抽取与类别相关性强、特征间冗余度小的特征子集,降低特征空间维度,对文本分类技术的优化具有不可忽视的作用。目前,特征降维主要分为三类,过滤式、封装式和嵌入式方法。过滤式方法计算效率高,特征评价模型简单,但只关注单个特征,忽略了不同特征之间结合可能带来更好效果的可能性。而封装式方法尽管能够产生对分类精度具有较高价值的特征集,但由于其较高的计算成本,而难以得到广泛的应用。因此,本文通过研究分析聚类有效性指标在文本分类中的应用,提出一种基于聚类有效性指标的特征降维算法(WB-Index Sequential Forward Selection WBI-SFS)。由于WBI-SFS算法不依赖特定的分类器评估特征子集,因此属于一种过滤式特征选择算法。WBI-SFS算法既有过滤式算法的短时间开销特点,又具有较高分类精度,两者兼备。WBI-SFS算法的主要创新点有两个:第一,利用高效、线性的聚类有效评价指标代替传统的过滤式评估函数或分类算法作为特征子集的评估度量方式。该算法代替了封装式方法中基于分类器的交叉验证过程,降低了计算成本。第二,结合序列前向搜索方法遍历全集,迭代生成候选特征子集。该遍历搜索方法理论简单,应用范围较广,具有很好的普适性。将WB-index指标与特定的搜索方法结合,解决了在数据高维稀疏问题中搜索最优特征子集和迭代评价特征子集的耗时长问题。本文通过在两种不同类型数据集上多次实验后,进一步证明了WBI-SFS算法无论在文本类数据集,亦或是非文本类数据集上,都具有较好的分类和效率性能。最后,本文以WBI-SFS算法为核心,设计并实现一套应用于网络流量分析、流量清洗,基于统一策略和应用规则的内容识别与过滤的网络内容识别原型系统,“净云”网络净化系统。该系统的核心功能旨在对包含不良信息的网页自动进行识别、分类、过滤与屏蔽,从而引导未成年人正确使用网络,抵御外来不良信息的入侵。
其他文献
目的:食管癌特别是鳞状细胞癌在我国的发病率和死亡率均居高不下,很大程度上威胁着我国人民的健康,且多数患者确诊时已达中晚期,已经失去了最佳手术时机,根治性放化疗是食管
致心律失常性右室心肌病(ARVC)是一种新命名的原发性心肌病,其病因和发病机制至今未明.过去研究报道的病因发病机制有炎症、免疫、退行性变及个体发育不良等几种学说,但新近
为深入挖掘土壤养分与棉花产量之间的潜在关系,提供一定的科学理论依据指导农业生产,本文基于Weka挖掘平台、C4.5决策树算法生成预测模型来预测棉花产量。分析得到:①土壤中
<正>《左传》记载:公元前581年的一天中午,晋景公姬獳品尝新麦之后觉得腹胀,急急如厕,不慎跌进粪坑而死。姬獳很可能是历史上第一个有文字记载的殉难于厕所的君主,由此暴露出
近几年我国的社会经济水平不断提高,各个企业的财务控制工作也日益发生变化,我国的企业取得了较大的发展,传统的财务管理模式已经不能适应当前经济体制对于企业的要求。企业
<正>到2023年,独立式AR和VR终端的总量预计将达到1.86亿部,而这离不开产业链厂商的共同推动。近日,在通信世界全媒体举办的"中国首届5G云VR及云游戏产业论坛"上,来自互联网企
目的研究阴道超声联合腹部B超在宫外孕诊断上应用价值。方法本研究选取的12例宫外孕患者均是本院2015年1月~2018年5月纳入,所有患者均接受阴道超声、腹部B超及两种联合检查,
研究背景和目的:肝细胞癌(Hepatocellular carcinoma, HCC)是我国的常见肿瘤,5年生存率<5%。慢性乙型肝炎病毒(Hepatitis B Virus, HBV)感染是我国HCC的主要危险因素,感染者发
邺城地处晋冀鲁豫四省交界,东汉以后,成为河北地区(泛指黄河以北、太行山以东的中原北方东部地区)的政治、经济、文化中心,历为曹魏、后赵、冉魏、前燕、东魏和北齐六朝国都,
目的:肿瘤间质,尤其是肿瘤相关性成纤维细胞(cancer-associated fibroblasts,CAFs),对乳腺癌的发生、生长、浸润、转移、预后及化疗疗效起着重要作用。本实验通过免疫组织化