基于nLD-SVM-RF的短文本分类研究

来源 :数据分析与知识发现 | 被引量 : 0次 | 上传用户:lihongyuansky
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
【目的】解决短文本内容简短而引起的数据稀疏问题,提高短文本分类效果。【方法】针对短文本数据稀疏的特点,采用多通道文本建模方式,形成融合短文本语义、语序特征和主题特征的文本向量表示作为分类器的输入,采用集成SVM与随机森林的nLD-SVM-RF方法实现短文本分类。【结果】使用投诉短文本进行验证,相较于仅使用Doc2Vec作为特征的SVM单分类器和RF单分类器,当n=5时,nLD-SVM-RF方法准确率分别提高9.70%、6.25%。【局限】本文数据为电信投诉文本,数据量较小,没有在大样本数据集上进行验证。【结论】nLD-SVM-RF算法有助于企业分析短文本信息,辅助决策。
其他文献
叶圣陶说:“教是为了达到不教”:为了帮助学生在学习上学会用自己的腿走路,为了充分发挥学生的主体作用,就必须加大对学生自主学习能力培养的力度。普通高中数学课程标准(实
【正】 党的十一届三中全会以来,特别是1988年以来在邓小平同志建设有中国特色的社会主义理论的指导下,上海农垦系统的干部职工锐意改革,努力奋斗,整个农垦焕发出了勃勃生机,
目的探讨OD450值与金黄色葡萄球菌活菌数目的相关性。方法金黄色葡萄球菌单菌落在LB培养基中培养18h,初步稀释后检测菌液的OD450值;取OD450值在0.9-1.0之间的菌液进一步稀释
【正】 王震同志是新中国社会主义农垦事业的奠基人,是开发建议北大荒的卓越的决策者、领导者。从1954年到1990年,王震同志数次深入黑龙江,规划北大荒开发,指挥北大荒建设,代
房地产市场平稳健康发展是一项十分复杂的系统工程,迫切需要采用大数据的思维方式和技术手段,加快构建监测分析预警系统。本文系统阐述了当前房地产市场监测分析存在的问题和
<正> 1使用效果 FU200型链运机机长35m,输送量30t/h,动力5.5kW,可用于输送水泥生料粉。该机在杭州第二水泥厂于1990年7月18日正式投入运行,一年多的使用结果证明,与螺旋输送
产业结构调整对促进我国经济增长具有重要作用。利用1997—2002—2007年中国投入产出表数据,根据完全需要系数矩阵计算了最终需求各项生产诱发系数和生产诱发依存度;根据同比例
<正> 一、链斗输送机发展概况链斗输送机具有耐高温、爬坡大(可倾斜45&#176;~60&#176;布置)、输送距离远、磨损小、噪音低、可根据工艺设计要求灵活布置驱动装置等突出优点,现
目的探索NF-κB炎症信号通路相关基因SNPs与胃癌预后的相关性,寻找影响胃癌预后的分子生物标志物。方法收集2013年4月至2014年3月在仙游县医院经病理确诊的167例胃癌患者血液