基于LDA多模型中文短文本主题分类体系构建与分类

被引量 : 0次 | 上传用户:zhouchaowenit
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着微博、微信等新媒介的迅速发展,中文短文本信息呈爆发式增长,如何高效的组织与管理文本信息,已成为亟需解决的问题。文本主题分类,能够改善文本信息杂乱的状况,可以减少查询时间,提高搜索质量,快速有效地获取文本信息。文本主题分类的任务是依据主题分类体系,判别待分类文本所属分类体系中的一个或多个类别。传统基于机器学习的文本分类算法,需要人工预定义分类类别,标识类别语料,面对大规模文档,人工人本过高,领域移植难,分类性能过度依赖人工。本文着眼于构建一套针对大规模文档的文本主题自动分类体系,能够自动实现对大规模文档的主题挖掘和分类体系构建,高效的实现对文本主题的自动分类。LDA主题模型是一种无监督文本主题挖掘模型,能够实现对文本主题的自动挖掘。LDA自动挖掘的结果Topic中存在部分噪声Topic,其高频词通常由随机词、通用词组成,不具备主题代表性。采用信息熵、表征词覆盖率、表征词方差、Topic独立性检测等算法,能有效实现对噪声Topic的自动过滤。由于语料本身的不平衡性以及分类类别数的影响,单个LDA模型并不能实现对文本主题的充分挖掘,不同分类粒度下LDA主题挖掘结果Topic之间具备主题互补性。应用多个不同分类粒度LDA模型能够实现对文本主题的完整挖掘,采用AP聚类算法对所有模型优质Topic进行聚类,结合IGP指标、BWP指标能够自动确定最佳聚类类别数,从而实现多模型完备主题分类体系的构建。依据多模型完备主题分类体系,采用多模型并发投票决策机制,有效扩展了文本主题、提升了分类准确率和稳定性。实验结果表明,基于多模型LDA文本主题分类技术,能够高效的实现文本分类体系的自动构建,体系主题覆盖全。采用多模型投票决策的分类机制,提升了分类准确率与稳定性。在对微信公众账号数据测试结果中,最佳F-值为0.89,高于单模型LDA的最佳F-值0.77,SVM对应最佳F-值为0.72。
其他文献
奖学金评定是高校学生管理工作中常见而且很重要的一项工作,它涉及到每个学生的切身利益,既能够有效促进学生德智体的全面发展,又对教育的发展有所推动,而且为人类的全面发展奠定
随着科技的进步以及人们对产品需求的质量越来越高,二维表征参数由于其自身不能够完整反映表面形貌的局限性,越来越不能满足人们的需要,专家学者开始寻求新的评定方法来表征零件
随着世界经济全球化的发展,语言作为国与国之间交流的基础,已经越来越受到人们的重视。大学中,把语言作为专业的学生也越来越多。作为一名专门从事语言教学的大学教师,如何让
出租车行业已经成为城市交通的重要组成部分,但随着出租车行业的快速发展,也出现了各种难以解决的问题。其中以出租车运营主体之间利益诉求难以协调的问题最为突出。目前解决该
背景与目的:目前脑血管疾病、心脏病和恶性肿瘤构成了人类疾病死亡的三大主要原因。①从19世纪开始就知道恶性肿瘤和血栓形成之间具有因果关系,此后肿瘤和高度凝血之间的关系备
近年来,随着经济的高速增长以及科学技术的飞速发展,社会不断地向数字化和网络化发展,人们的生活方式逐渐发生变化,安保意识普遍提高,视频监控行业具有相当大的潜力。高清网络摄像
随着我国高速公路里程的快速增长,截止到2013年7月国内高速公路网已建设完成78.5%。由于我国交通运输呈现出交通量迅猛增长、重载车比例大和单车超载严重等特点,初期建设的高速
煤矸石作为我国目前年排放量和累计存量最大的工业废弃物之一,它的堆放方式和处理过程对周围环境产生重要影响,因此实现煤矸石的建材资源化是实现煤矸石可再生资源利用的有效途
为了提高驾乘的舒适性以及车辆的可操控性和安全性,越来越多的电子控制单元(Electronic Control Unit,ECU)被集成到汽车的控制系统中。由于这些ECU之间需要进行大量数据的高速
现代军事设备随着科学技术的发展,对数据传输量和实时性等方面都提出了更高的要求,运载火箭控制系统是用来控制火箭飞行中的状态,在实际飞行过程中,运载火箭会受到来自火箭自身和