一种基于聚类的主题模型短文本分类方法

来源 :第十届中国Rough集与软计算、第四届中国Web智能、第四届中国粒计算联合会议 | 被引量 : 0次 | 上传用户:JoanFang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对单个短文本的信息描述能力差的问题,提出了一种基于聚类的主题模型短文本分类方法。首先对短文本训练集的每一个类别进行聚类,把聚类得到的一簇类中的文本看成是讨论的同一个主题,再根据主题在类别中的概率分布以及词语在主题中的概率分布,随机生成新的具有较强描述能力的长文本,最后进行分类。实验表明,该方法在一定程度上弥补了短文本信息描述能力差的缺点,提高了分类性能。
其他文献
房屋渗漏问题几乎成为房屋建筑工程中的通病,发生渗漏的地方不止一处,比如厨卫、外墙,当这些地方防渗漏功能失效时,渗漏出来的水分会逐渐腐蚀流经过的地方,使其不再保持原来的状态
支持向量机在许多实际应用中由于训练样本集规模较大且具有类内混杂孤立点数据,导致了学习速度慢,存储需求量大等问题。针对这些问题提出了一种新的去样本点的方法。该方法首先
会议
在现代化电子技术的快速发展下,已经将电子技术应用到绿色照明中,并且通过绿色照明技术的应用,有效实现了能源的消耗降低,以及能源应用的质量提升。鉴于此,本文针对电子技术在绿色
近年来,我国的地质测绘工程有了飞速的发展,测绘新技术也得到了广泛的应用。新测绘技术的应用,在地质测绘工程中发挥了不可替代的作用。所谓的测绘新技术,就是在先进的技术的支持
近年来,新型金属材料在我国发展蓬勃,其中具有特殊性能和应用要求的新型金属材料的开发和产业化生产,金属材料性能检测技术和方法研发受到业界越来越多的关注。本文主要就金属材
图像修复技术能够根据图片的已知信息来填补出图片中的缺失信息,并具有较好的视觉效果。本文分析了Criminisi提出的基于样例的图像修复算法,并且在此基础上提出改进方案,使不同
随着语义Web技术的发展,OWL知识问答系统成为语义Web上的重要研究内容。这种问答系统需要将用户输入的自然语言问题转换成RDF元组的形式。为了解决这类问答系统中的多变量问题
会议
在开展水利水电工程施工作业时,为促进施工质量的有效提升,确保能够达到更高的社会效益及经济效益,大量的施工单位都会在施工阶段应用以施工导流技术来把水流引至下游。施工导流
现代测量技术在发展中不断更新,其准确性和工作效率也在不断地提高,对测量工程的质量和水平产生了巨大的影响。先进的测绘技术不仅为我国城市规划提供技术支持,也为我国现代化建
2009年11月28日,王世襄先生在北京逝世,享年九十五岁。有关部门给王先生的头衔很长:著名文物专家、学者、文物鉴赏家、收藏家、国家文物局中国文化遗产研究院研究员、中央文