基于信息熵与词长信息改进的TFIDF算法

来源 :浙江工业大学学报 | 被引量 : 0次 | 上传用户:quchaolove
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对文本分类中传统的TFIDF特征提取算法的缺陷,引入信息熵与词长信息改进TFIDF算法。传统的TFIDF算法中忽略了词长信息,词长不同能够表达的信息也不同,同时还忽略了文本中特征词的分布特征。改进的TFIDF算法中加入了表达词长信息的因子并且引入词条信息熵来反映特征词在文本中的分布特征,实验比较了其与TFIDF、TFIDFL等算法在相同数据集上使用逻辑回归分类器的分类准确率。改进的算法平均准确率比TFIDF算法高了7.34%,比TFIDFL算法高了5.99%,结果表明引入信息熵与词长信息改进TFIDF算
其他文献
1993年春,在80年代初就被人们誉为“黄土高原上的花果城”的山西省临汾市,发生了一起哄动全国的新闻事件:一排白杨树“砸倒”了一个大企业,或曰“白杨树事件”。多家报刊、电
就像许多创新之旅一样,它是在一间地下室里开始的,这里有一个阿迪达斯小而专注的未来创新团队。他们就像戏剧人物一样,最初没有灵感,只是做着有趣的建筑试验。在这些试验中,
儿童气质的研究引起了多学科的关注,本文将从气质的定义,气质研究方法,气质持续性和气质相关因素诸方面加以综述。
在异侧布置竖缝与矩形中孔组合式鱼道水槽中,利用声学多普勒测速仪(ADV)量测了鱼道水池中的三维瞬时流速,剖析了不同水平面、纵剖面和横断面上的流动特征,给出了时均流速、紊
为满足房产室内场景在线三维建模与展示的需求,提出了一种基于户型图实例分割与ThreeJS的室内场景建模方法。该方法以户型图栅格数据和户型结构矢量数据作为输入,将Mask R-CNN算法应用于户型图栅格数据的实例分割,实例分割结果与户型结构矢量数据进行配准,最后,通过家具模型库自动适配,基于ThreeJS完成室内场景三维在线快速建模。实验结果表明:该方法建模过程简单、高效、灵活,模型效果符合预期。
改革开放以来,港澳与珠江三角洲地区以优势互补为基础的“前店后厂”式跨境一体化生产贸易体系的形成,导致三地之间商品、资本、人员与信息的流动和生产要素在区域内的优化配置
该文介绍了婴儿期性情不良及其它变量预测学令前儿童行为问题的价值,并对婴儿性情的定义及分类,情性评定的工具和评定的影响因素作了介绍,旨在使临床及母婴保健人员了解有关新的
为了建立医药中间体醋氯芬酸叔丁酯的液相检测方法,采用色谱柱Utimate ODS-3(250mm×4.6mm,5μm),流动相:A相为磷酸盐缓冲液(0.112mg/mL磷酸水溶液,NaOH溶液调节pH值至7.
针对基于多传感器的交互性人体活动识别任务,提出了一种基于窗口预处理和分组残差联合空间学习的多传感器交互性活动识别算法。首先,针对多传感器交互性活动数据预处理过程中的滑动窗口处理方式对人体活动识别的影响进行了实验分析和实验对比,包括不同滑动窗口大小和覆盖率等;其次,基于多传感器的交互性活动识别的窗口预处理结论,利用分组残差联合空间学习进行活动识别与分类,并设计多组对比实验,分别对网络模型、损失函数和
氯盐侵蚀是引起钢筋混凝土结构劣化的主要原因之一,临界氯离子浓度则是判别钢筋锈蚀主要参数,也是预测耐久性服役寿命的重要因素。对临界氯离子浓度的研究虽然越来越重视,但