【摘 要】
:
针对KNN文本分类方法中不考虑特征词关联的问题,提出一种改进方法.这种方法基于对体现词和类别间相关程度的CHI统计值分布的分析,应用向量聚合技术很好地解决了关联特征词的
【基金项目】
:
国家高技术研究发展计划(863计划)
论文部分内容阅读
针对KNN文本分类方法中不考虑特征词关联的问题,提出一种改进方法.这种方法基于对体现词和类别间相关程度的CHI统计值分布的分析,应用向量聚合技术很好地解决了关联特征词的提取问题.其特点在于:聚合文本向量中相关联的特征词作为特征项,从而取代传统方法中一个特征词对应向量一维的做法,这样不但缩减了向量的维数,而且加强了特征项对文本分类的贡献.实验表明该方法明显提高了分类的准确率和召回率.
其他文献
从训练学角度对中国曲棍球运动的训练、比赛水平进行了分析,试图通过对我国多年来在对曲棍球训练规律的理解、训练理念的把握,以及训练过程的组织、实施方面存在的弊端进行剖
隧道施工过程中,经遇自稳性差的软弱破碎地层,严重偏压、岩溶流泥地段,砂土层、砂卵砾石层、断层破碎带以及大面积淋水或涌水地段时常会遇到小塌方,塌方处理不及时不到位,会
目的探讨悬垂位心心电图的特征及与气胸心电图等的鉴别要点,以减少误诊。方法从今年病案中找出X线胸片符合悬垂位心患者的心电图,分析其心电图特征及与其它有类似心电图表现的
应用腹腔镜手术治疗卵巢疾患有20余年的历史,且被医生和病人所乐于接受,尤其是年轻患者.但并不是每一例年轻患者可作腹腔镜手术,术前对肿瘤性质的预测良性或恶性,仍是卵巢囊
办公自动化系统(OA)给医院管理带来了全新的理念和重大突破。文章对医院应用OA系统在全面提高工作效率、工作质量和管理功效方面的意义和作用进行详细分析,并重点对医院OA系
为保证管道运输安全,需要对管道进行定期维护和检测。采用视觉检测原理,提出了一种基于圆结构光三维视觉检测的管道内表面测量系统。针对管道内表面测量空间受限的约束,基于
随着视频等多媒体业务在总流量中的占比逐渐提升,用户对于网络的需求也逐步发生变化从端到端资源的共享到内容分发和获取。而当前基于端到端通信模式的TCP/IP架构显然难以应对当前用户需求的转变,加上路由器缓存和计算能力的提升,信息中心网络(Information Centric Networking,ICN)架构被提出。在ICN中,通过在网络层命名数据实现了名址分离,网内基于内容名路由,并且支持在核心网
近年来,我国民办教育市场发展较为迅速,拓展教育培训是民办教育培训的一个新的方向,但大多数的拓展教育培训企业尚未发展成熟,其营销管理缺乏科学性,而且行业没有统一的标准体系,整体的营销管理体系还不够完善。目前关于拓展教育培训公司的营销管理案例较少,相关的经验也比较缺乏。而如何解决这些问题,是理论和实践工作中亟待解决的问题之一。本论文主要采用描述性研究法和调查研究法对R公司营销的现状开展研究,结合营销策