基于LDA特征选择的文本聚类

来源 :电脑开发与应用 | 被引量 : 0次 | 上传用户:JWPMP
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
特征选择在文本聚类中起着至关重要的作用,将产生式模型LatentDirichletAllocation(LDA)引入基于K.means算法的文本聚类中,通过提取特征与隐含主题的关系进行特征选择。在第2届中文倾向性分析评测的语料上的实验结果表明。当选择2%的特征时,相对于单词贡献度(TC,TermContribution)方法的纯度和F值分别提高了0.15和0.16,相对于LDA直接得到文本与主题的关系的实验结果的纯度和F值分别提高了0.14和0.13。
其他文献
曾经担任国民军总司令、西北边防督办的张之江将军是我的外祖父,他为中国的抗日战争做出很多贡献,其中特别有历史意义而不为世人所知的,就是游说鼓励老部下29军军长宋哲元和
黄芩是传统常用中药材,为唇形科多年生草本植物黄芩Scutellaria baicalensis Georgi.的干燥根,具有清热燥湿、泻火解毒、止血、安胎等功效。黄芩中含有黄芩苷、黄芩素、汉黄芩苷
【正】 爱情是人类崇高而美好的情感。表现这崇高美好情感的诗词,在文学史上占有重要的地位。我国是有悠久历史的文明古国,但它又是一个经历了漫长封建社会的古国。因而,我国
结合遥感影像、野外调查和形态统计,深入分析斜槽裁弯现象,将其划分为切滩冲刷、串沟冲刷和主流顶冲3种模式。切滩模式发生于洪水期间主流水流动力轴线偏向凸滩后,形成漫流水流
来过杭州基督教会鼓楼堂(老堂)的人都有记忆,建于1931年的这座中国宫殿式教堂,在讲台两边柱子上有一副"感谢耶和华恩赐生命水,讴歌弥赛亚声动浙江潮"的对联(新堂内仍保留了这副对
分析了傅里叶变换光谱仪由动镜速度和采样抖动的随机误差引起的光谱噪声,建立了基于噪声等效辐亮度差(NERD)和噪声等效温差(NETD)的噪声模型。分析表明,动镜速度的波动与抗混叠滤
以二正丙胺和二异丙胺为双模板剂,通过低温预晶化及向SAPO-11分子筛合成体系中加入添加物(异丙醇、聚乙二醇或氢氟酸)等方法阻止其晶粒的生长与聚集,达到控制分子筛颗粒尺寸的目
合理的晋升标准关乎青年教师的学术职业发展,对完善高校人事制度、建设世界一流大学和一流学科具有重要意义。聚焦40个一流建设学科高校国家重点实验室中的502名青年教师,分
《歧路灯》的一些词语有深厚的文化内涵与民俗意蕴,对其理解也须借助方言及民俗。运用现代汉语方言及民俗对"合子利钱""爽利""胡柴""后园""馁缩"等词的考释表明,在对某些词语
采用文献资料法、实验法、专家访谈法、数理统计法等,对济源职业技术学院大一和大二共334名学生进行心理干预效果的实验研究.结果表明,有针对性的拓展训练对高职大学生的心理