基于多指标融合的文本特征评价及选择算法

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:lnclnc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在文本分类问题中,有多种评价特征优劣的指标,其中主要有特征与类别的相关性、特征自身的冗余度和特征在语料中的稀疏程度。由于文本特征的优劣直接影响分类效果,全方位考虑特征的各个因素很有必要。特征选择常分为三步骤分别对相关性、冗余度和稀疏程度进行衡量,而在每一步的加权和筛选过程中都要耗费大量时间,在面对实时性和准确性要求较高的情况时,这种分步评价特征的方法很难适用。针对上述问题,首先建立坐标模型,将相关性、冗余度和稀疏程度映射到坐标系中,根据空间内的点和原点构成的向量与坐标面或坐标轴的夹角对文本特征进行加权和筛
其他文献
传统核可能性C均值(KPCM)算法仅考虑类内的紧密性而忽略了类间的距离关系,在对边界模糊的数据进行聚类分析时,会引起因聚类中心距离小或重合引起的边界点误分问题。为解决上述问
微利时代的成长?嗯,听起来不错。对于过去的几年,市场细分、竞争加剧、利润微薄,事实不断告诉每一个商业人士,战后几十年的经济增长黄金期已挥挥衣袖,作别已久,哪怕对正在转型时期的
近年来,资本市场的不景气促使创新的理念深入人心,伴随着各种创新,监管也在发生变化。
根据地铁车站环境与设备监控系统的设备组成,分析了其各个组成部分的电源需求,实际统计出整个车站BAS系统的耗电功率,从而给车站设置UPS电源的功率提供依据。
目的 探讨64排螺旋CT增强扫描(CT增强扫描)鉴别肺孤立性结节(SPN)良、恶性的临床价值.方法 回顾性分析2018-04—2020-01间于西平县人民医院行手术并经术后病理学检查确诊的62
<正>2018年12月28日,我国第一个基于5G技术的国家级新媒体平台在中央广播电视总台开建。当天,中央广播电视总台与中国移动、中国电信、中国联通及华为公司在北京共同签署合作
现如今,随着大数据时代的快速发展,许多不同的行业都需要进一步对计算机应用技术进行发展,进而提升企业在自身数据信息上的处理能力,为企业的发展提供必要的数据支持。由此,
儿童的语言敏感期在3到6岁,在敏感期发展儿童的各项能力能够起到事半功倍的效果.随着家长康复意识的不断提高,特殊教育观念大幅提升.科技的支持,助听器的更新换代,特别是人工
目的探讨柯萨奇病毒-腺病毒受体蛋白在肺癌中的表达及其与临床病理因素及预后的关系。方法选取支气管肺泡肺癌患者手术后病理切片100例作为观察组,非支气管肺泡肺癌患者病理切