【摘 要】
:
随着网络技术的快速发展和电子文件数量的急剧增加,文本分类技术愈发重要。文本分类中最棘手的问题就是如何有效降低特征空间的高维度,过高维度的特征空间不仅会增加分类时间
论文部分内容阅读
随着网络技术的快速发展和电子文件数量的急剧增加,文本分类技术愈发重要。文本分类中最棘手的问题就是如何有效降低特征空间的高维度,过高维度的特征空间不仅会增加分类时间复杂度,而且还会降低分类精度。特征选择技术作为文本分类过程中的重要环节,能够有效地剔除冗余特征,很好地降低特征空间维度。因此,对文本分类特征选择技术的研究有着重要的现实意义。论文从提高分类准确性和稳定性的角度出发,对文本分类的基础理论及相关技术进行了介绍,其中包括文本预处理、降维、特征加权、分类器构造和性能评价。并在此基础上对特征选择进行了深入研究,提出了两个全新的特征选择算法。(1)提出了一种基于分词频文档频率的特征选择算法(STF-DF)。通过对文档频率、信息增益、卡方检验等现有特征选择算法进行分析研究,不难发现,这些算法仅仅通过特征词是否在文档中出现来判定其文档频率,而不考虑特征词出现了多少次,这在复杂的文本分类问题中是远远不够的。因此,论文提出两个全新的概念——分词频和分词频文档频率,并依此设计了一种基于分词频文档频率的特征选择算法。该算法从分词频的角度计算文档频率,充分考虑了同一个特征词在不同词频下对分类带来的贡献。实验结果表明,STF-DF算法具有较好的分类性能,是一种有效的特征选择算法。(2)提出了一种基于分词频逆类频率的特征选择算法(STF-ICF)。考虑到逆类频率ICF方法在衡量特征词重要程度时存在两点弊端,该方法会简单地认为那些在所有类中都出现的项对分类几乎没有贡献,同时对于具有相同类别频率的项没有区别能力。针对以上不足,论文提出了一种新的基于分词频逆类频率的特征选择算法,该算法在分词频的理论基础上,提出分词频类别频率以及加权平均类别频率两个新的概念。实验结果表明,STFICF算法在micro-F1及精确率两方面都取得了较好的实验效果。
其他文献
数字成像系统的颜色高保真图像获取是指所捕获的图像颜色可以精确复制场景的真实颜色,但是由于传统数字成像系统的硬件限制会导致图像颜色失真及其无法像人眼一样可以清楚地
目的:观察柴夏消痤方对治疗女性肝郁热结型结节性痤疮的临床症状改善情况,对柴夏消痤方治疗女性肝郁热结型结节性痤疮的临床疗效做出客观评价。方法:选取2019年01月~2019年12月于石家庄市中医院内分泌科及皮肤科门诊就诊的符合纳入标准的肝郁热结型结节性痤疮的60例女性病患。按照随机数字表法将其分为治疗组30例运用柴夏消痤方治疗,对照组30例运用清热暗疮胶囊和丹栀逍遥丸治疗,同时监测肝功能、肾功能等安
配电网状态监测业务是配电物联网(PD-IoT)的重要应用组成部分,但由于通信技术的限制造成配电网在线监测功能的覆盖率较低,严重影响了电力物联网应用水平。因此,开展物联网新技术在配电网状态监测中的深化应用研究对支撑配电网运维的自动化、信息化和智能化发展具有重大意义。低功耗广域网(LPWAN)是面向物联网应用的创新通信技术,为配电网状态监测业务提供了一个全新的思路。针对此,本文主要做了以下工作:(1)
本文旨在研究胆固醇对生长中期草鱼生产性能、功能器官健康和肌肉品质的作用及机制。试验选取540尾平均体重为225.37±0.43g的草鱼,随机均分为6个处理,分别饲喂含有不同胆固
随着国民经济和工工业的迅猛发展,我国对电力的需求量也在不断攀升。为了能将大功率电力从能源丰富的偏远地区输送至缺乏电能的负荷地区,国家大力发展特高压直流输电技术。然而随着电压等级不断提高,输电线路的电磁环境问题也日益严峻。其中由电晕放电产生的可听噪声问题尤为突出,受到了广泛关注,并逐渐成为影响导线型号选择的重要因素。因此对可听噪声和电晕电流的研究具有迫切的现实意义,对特高压直流输电工程也具有一定的指
科技型中小企业已经成为我国经济发展中一股新生力量,也是实现经济高水平发展的内在动力。科技型中小企业相比其他类型的企业具有明显的特点,即重技术、重创意、轻资产、高风险等特征,而这些特点也制约了科技型中小企业融资问题。对于商业银行而言,科技型中小企业也会成为其业务发展过程中面临的机遇和挑战。我国商业银行当前的授信体系、授信条件、授信客户等多数都是基于大型企业、国有企业而设置的,以轻资产、重技术、高风险
随着风力机向海洋化和超大型化的方向发展,使得沿海地区风场受台风的侵袭破坏问题日益突出。研究典型台风的结构和风特性,并与风力机的气动和整机动力学模型耦合,探索台风下风力机的载荷和动力响应机理,具有重要的科学和工程意义。本文致力于解决台风下大型风力机动力学仿真中的关键技术难点,对大型风力机在台风下的动力学特性进行了仿真和分析。主要开展的研究工作包括:实现了台风风场的全过程仿真。采用中尺度WRF气象模式
信托业是我国经济和金融的重要组成部分,自1979年第一家专业信托公司成立以来,凭借制度优势,行业发展迅猛。随着信托行业管理资产规模快速扩张,面临的各类风险也不断显现,信托行业整体风险项目个数及风险资产规模近年呈波动上升趋势,2019年三季度末风险率增至2.10%,为历史峰值,“暴雷”违约事件中,工商企业类信托项目风险尤为突出,信托业风险管理面临着一定的挑战。在此背景下,F信托公司管理的工商企业类信
复合材料因其强度大、刚度高、性能可设计等优点而在航空航天结构中广泛应用,但复合材料结构在长期交变载荷作用下,不可避免地会产生分层损伤。分层损伤作为复合材料层合板结构中最容易发生的一种损伤形式,会不断扩展导致结构强度和稳定性的急剧下降,甚至可能造成结构的灾难性破坏。因此在疲劳载荷作用下对复合材料结构进行持续监测并预测其剩余寿命是当前结构健康监测领域的一个热点,有着重要的研究意义和工程应用价值。本文首
深海机械手是海洋探测的必要装备,现有液压驱动工业级深海机械手体积庞大且手部为钳指型结构不够灵活,难以在小型潜航器上应用、难以捕获活动的海洋生物;灵活的小型水下机械手多选用电磁式无刷电机作为作动器,采用充油方法平衡海水压力。但随着水深增加水压增大,密封元件的变形不仅导致电机输出能力的下降而且还伴有海水渗入或油液泄漏的可能。本课题面向微小型潜航器配备水下灵巧机械手的应用需求,利用压电激励和摩擦驱动原理