【摘 要】
:
基于词的向量空间模型是文本分类中的传统的表示文本的方法。这种表示方法的一个缺点是忽略了词之间的关系。最近一些使用潜在主题文本表示的方法,如隐含狄利克雷分配LDA(Laten
【机 构】
:
南京大学计算机软件新技术国家重点实验室、南京大学计算机科学与技术系
【基金项目】
:
国家863计划资助项目(2006AA010109);国家自然科学基金资助项目(60673043);国家社科资金资助项目(07BYY051)
论文部分内容阅读
基于词的向量空间模型是文本分类中的传统的表示文本的方法。这种表示方法的一个缺点是忽略了词之间的关系。最近一些使用潜在主题文本表示的方法,如隐含狄利克雷分配LDA(Latent Diriehlet Allocation)引起了人们的注意,这种表示方法可以处理词之间的关系。但是,只使用基于潜在主题的文本表示可能造成词信息的损失。我们使用改进的随机森林方法结合基于词的和基于LDA主题的两种文本表示方法。对于两类特征分别构造随机森林,最终分类结果通过投票机制决定。在标准数据集上的实验结果表明,相比只使用一种文本特
其他文献
传统的干细胞多取材于胚胎、骨髓和脐血,在伦理和供体来源方面受到一定限制。脂肪组织中基质细胞有多向分化潜能,可以作为干细胞的来源^[1]。脂肪基质血管组分(stromal vascular
本文主要从儒家"忠、孝、节、义"的正统价值观念出发,以《镜花缘》对女性形象的塑造为切入点,说明作者是如何通过百名才女对正统价值的实践来完成道德说教的。
综合运用灰色系统理论和协同学方法 ,对高校科学研究与学科建设协同发展系统进行了灰色关联分析 ,构建了高校科学研究与学科建设协同发展系统数学模型 ,寻找该系统的序参量 ,
目的探讨外伤性硬膜下积液演变为慢性硬膜下血肿的临床特点及演变机理及诊治。方法对27例由外伤性硬膜下积液演变为慢性硬膜下血肿的患者进行临床观察分析。结果27例患者均有
<正>农产品加工是一产向二产的延伸与扩展,是以人工生产的农业物料和野生动植物资源及其加工品为原料所进行的工业生产活动。单一农户很难独立完成这一阶段性跨越,农民合作社
克氏原螯虾(Procambarus clarkii)又称红色沼泽螯虾、小龙虾或克氏螯虾。在动物分类学上隶属甲壳纲,十足目,螯虾科,原螯虾属。20世纪30年代左右由日本传入中国,虽然进入中国的
结合中国汽车市场由非常态的'井喷性增长'转向常态的'一般性增长'以及汽车经销商竞争力普遍缺乏的现状,运用竞争力理论对汽车经销商进行全面剖析,提出汽车经
论文采用聚类分析方法对我国省域政府雇员规模影响因素进行统计分析表明,人口因素、交通状况和教育水平对我国省域政府雇员规模影响较大.而经济水平、民族因素和区划面积对我国
结核性脑膜炎至今仍是我国农村地区的常见病,病死率及致残率较高,早期诊断、及时治疗对其预后十分重要,回顾性分析我院收治的54例结核性脑膜炎的临床资料,以提高对结核性脑膜炎的
目的:探讨经肛门内外括约肌间延伸平面辅助腔镜下全直肠系膜切除术(TME)治疗低位直肠癌手术的配合及体会。方法:回顾性分析2013年5月至2014年7月32例采用经肛直视下在内外括约肌