基于LDA-wSVM模型的文本分类研究

来源 :计算机应用研究 | 被引量 : 0次 | 上传用户:sunlongjun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
SVM分类算法处理高维数据具有较大优势,但其未考虑语义的相似性度量问题,而LDA主题模型可以解决传统的文本分类中相似性度量和主题单一性问题。为了充分结合SVM和LDA算法的优势并提高分类精确度,提出了一种新的LDA-w SVM高效分类算法模型。利用LDA主题模型进行建模和特征选择,确定主题数和隐主题—文本矩阵;在经典权重计算方法上作改进,考虑各特征项与类别的关联度,设计了一种新的权重计算方法;在特征词空间上使用这种基于权重计算的w SVM分类器进行分类。实验基于R软件平台对搜狗实验室的新闻文本集进行分类,得到了宏平均值为0.943的高精确度分类结果。实验结果表明,提出的LDA-w SVM模型在文本自动分类中具有很好的优越性能。
其他文献
成都市体育场电气、足球场地照明、弱电、智能化等系统的设计,以及解决电气技术问题的方法和效果.
<正>山东非法经营疫苗案发生后虽然波及面大,但涉案疫苗却未能流入上海市,因此上海市对二类疫苗管理的模式颇受外界关注。2005年国务院出台的《疫苗流通和预防接种管理条例》
识字教学一直是小学语文教学的重点和难点。识字是学生阅读、写作和口语交际的基础。要让学生通过多种手段来进行识字,从而更好的学好语文。
为了比较不同厂家的注射用矿物白油佐剂的免疫效果,试验采用2个国外白油样品、3个国内白油样品,按照《中华人民共和国兽药典》进行注射用白油质量检验、制备5批新城疫油乳剂
吉林省中小型民营金融机构在发展中存在着资金吸引力弱,品牌认知度低,缺乏针对性的信用及风险鉴定系统等诸多问题。本文对这些问题进行了系统分析,提出引入真实的竞争、理性
通过对西瓜翠进行低盐腌制,确定最佳工艺程序与工艺参数。采用正交试验对泡菜中乳杆菌、食盐、白糖添加量及发酵温度进行优化。结果表明:乳杆菌添加量2m L/kg、食盐添加量7%
随着我国居民收入和消费水平的提高,在满足了基本的生存需求以后,人们越来越注重自身的外表和仪容面貌状态,并且逐渐发展成为人们日常生活中不可缺少的一部分。因此人们开始追求美丽和享受带来的满足感。所以对于化妆品的需求也是越来越远频繁和迫切了。随着中国加入WTO,越来越多的国外品牌涌入中国市场,因此市场中涌现了大批的化妆品原料生产厂家以及美容院和化妆品新兴品牌等,面对中国市场的竞争态势,化妆品行业的竞争局
<正> 六朝志怪小说的产生和发展,始终与佛教很有关系。佛教在西汉时期传入中国,到六朝时,影响已非常之大。虽然少数帝王搞过几次灭佛,但多数君王皆尊崇佛法,礼遇沙门。由于统
为充分利用公交车GPS数据和IC卡数据来估算公交断面客流,提出一种对刷卡乘客分类推断上、下车站点并扩样叠加轨迹的方法。首先通过融合公交车GPS数据和IC卡数据来推断不同类
冶金厂矿对高温线材(小捆盘圆)的包装,长期以来采用人工捆扎方式,劳动条件恶劣,且包装质量得不到保证。研制高温线材打捆机,用以替代手工作业,对提高轧钢厂的自动化水平和包