【摘 要】
:
针对短文本特征较少而导致使用传统文本分类算法进行分类效果并不理想的问题,提出了一种融合BTM主题特征和改进了特征权重计算的综合特征提取方法来进行短文本分类。方法中,
【机 构】
:
安徽大学计算机科学与技术学院,计算智能和信号处理教育部重点实验室
【基金项目】
:
安徽省高校自然科学研究重点项目(No.KJ2013A020), 安徽省自然科学基金(No.11040606M133)
论文部分内容阅读
针对短文本特征较少而导致使用传统文本分类算法进行分类效果并不理想的问题,提出了一种融合BTM主题特征和改进了特征权重计算的综合特征提取方法来进行短文本分类。方法中,在TF-IWF的基础上降低词频权重并引入词分布熵,衍生出新的算法计算权重。结合BTM主题模型中各主题下的主题词对词数较少的文档进行补充,并选择每篇文档在各个主题下的概率分布作为另一部分文档特征。通过KNN算法进行多组分类实验,结果证明该方法与传统的TF-IWF等方法计算特征进行比较,F1的结果提高了10%左右,验证了方法的有效性。
其他文献
<正> 一、基本情况 (一)概况 三河上游拦河坝位于江苏省三河闸上游右侧,距三河闸约400米,坝身长643米。它是洪泽湖大堤的重要组成部分,是里下河地区3000万亩耕地,2000万人口
<正> 档案是国家的一项宝贵财富,它是各个历史时期真实反映社会经历的“百科全书”。借鉴历史档案为现实服务,是指导人类不断前进的智慧源泉。水利技术档案是国家整体档案的
针对红外图像与可见光图像融合中容易产生红外目标不明显、对比度不高的问题,提出了一种新的融合算法。该算法创新地将PCNN与区域特征应用到NSCT域内低频和带通子带系数的选
<正> 近几年来,江苏省水利系统广大干部职工在邓小平理论和党的十五大精神指引下,进一步解放思想,深化改革,加大协调力度,推进两个根本性转变,全省水利经济保持了良好的发展
<正> 淮北大堤沙家洼险段历来被列为防汛重点。“提起沙家洼,神鬼都害怕”。沙家洼险段虽经过处理,但从1991年洪水来看,险情小范围重现。 一、沙家洼的基本情况 淮北大堤沙家
<正> 沂沭泗流域的主要入海通道之一的新沂河南堤92+000公里处盐河南套闸,担负着防洪、灌溉、航运以及保证向连云港市工业、农业、生活用水任务,该闸为单孔净宽8米,净高11米,
瓣膜退行性改变是老年人常见的心脏瓣膜病。文献报道,瓣膜硬化或钙化,特别是主动脉瓣及二尖瓣狭窄及关闭不全,随着年龄老化而增多,甚至超过缺血性心脏病,常常引起猝死。本文
70年代以来,恶性实体肿瘤生长就分为无血管期和血管期。无血管期(亦称休眠期)肿瘤细胞增殖仅靠弥散渗透供给营养;当瘤体生长至一定大小(2mm~3)时肿瘤就需要建立自己的血管来