基于BTM的短文本聚类

被引量 : 0次 | 上传用户：yecao126128

【摘要】

：

随着互联网和网络技术的快速发展,很多网络通信交流平台被广泛使用,如手机短信、微博、电子邮件、论坛、聊天软件、新闻评论等,而他们通常会产生大批量的短文本信息资源。这

【作者】

：

汤秋莲

【发表日期】

：

2014年期

【关键词】

：

短文本聚类 BTM 主题模型聚簇描述

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网和网络技术的快速发展,很多网络通信交流平台被广泛使用,如手机短信、微博、电子邮件、论坛、聊天软件、新闻评论等,而他们通常会产生大批量的短文本信息资源。这些短文本涉及着人们生活的各个领域,也逐渐成为人们广泛使用并且公认的交流方式,并且它也改变着人们的生活和沟通习惯。从这些数量庞大的短文本中挖掘其中所蕴含的潜在资源可以方便对它们进行管理、同时也可以用于信息的发现和分析。但是面对如此海量的短文本,人们很难快速的通过人工的办法来获取其中所蕴含的信息资源,所以利用计算机技术来对短文本进行挖掘和分析具有重要的意义。文本聚类是自然语言处理中最基础的技术,采用聚类技术对这些短文本进行分析和组织,能够挖掘文本内部文字之间的联系,进而有助于对这些信息的整体认识和管理。但是对于短文本来说,短文本本身和长文本不一样,它具有独特的特征,如字数少,表达简洁、缺乏丰富的上下文信息,包含的信息量有限,这使得短文本的特征稀疏,很难准确的抽取有效的文档特征,加之传统的文本聚类方法直接在短文本上使用的效果不佳,因此,这对短文本的聚类研究带来了更多的挑战,同时也导致短文本聚类技术的发展相对缓慢。目前,针对短文本的文本聚类的困难基本上有：如何解决短文本的特征稀疏问题,如何改善短文本聚类的质量、以及如何描述聚簇结果。本文综合的考虑了以上几点,提出了基于BTM(Biterm Topic Model)的短文本聚类方法。本文主要工作：(1)详细阐述了短文本聚类的研究意义,研究难点和常用的解决方法,简要介绍了短文本聚类理论和关键技术,如预处理中的句子分词和去停用词、几种重要的文本模型、聚类方法、聚类中涉及的相似度计算、聚类评价指标以及聚簇结果的描述等。(2)详细介绍了BTM (biterm topic model),分析和对比了BTM和LDA以及一元混合模型的异同,介绍了BTM语义空间及Gibbs抽样的参数推理过程,实验体现了基于BTM语义的文档特征和文档表示形式,从而证实了BTM在处理短文本稀疏问题上的有效性。(3)将BTM引入到短文本聚类,利用BTM训练之后得到的文档-主题的概率分布矩阵和主题-词概率分布矩阵与传统的利用TF-IDF进行词权重计算的向量空间模型相结合,即将主题特征与词特征结合,以此达到改善短文本聚类质量的效果。(4)利用聚类的结果中各个聚簇文档中的主题分布情况,结合BTM训练之后的主题-词特征空间,提出一种聚簇结果描述方法,利用这种方法可以对聚簇进行描述和直观理解。通过在百度知道语料库上进行K-means聚类的实验结果分析对比中得出,本文的方法优于传统的VSM和利用LDA的聚类,并且采用本文提出的方法对聚簇结果的描述也较为准确,通过整个实验,基于BTM的短文本聚类效果的有效性也得到了验证。

其他文献

浅谈初中语文的导入

俗话说，万事开头难，一堂课导入得好，会对整堂课的教学效果产生重要的作用。导入是课堂教学中的重要环节，是承上启下、温故知新的必然途径。在初中语文教学中，教师要在课前做好充分

期刊

初中学生导入环节

黄海北部大连沿岸虾夷扇贝天然苗采集技术研究

在调查了2005、2006年黄海北部大连海域虾夷扇贝的繁殖期、浮游幼虫的时空分布的基础上，对虾夷扇贝海区天然采苗进行了研究。结果表明，2005、2006年该区域的獐子岛海域、大长山

期刊

虾夷扇贝繁殖期幼虫分布采苗技术

过敏性紫癜患者血清IL-23、IL-15水平的变化及其意义

目的：过敏性紫癜（Henoch-Schonlein purpura，HSP）或称许兰亨诺氏血管炎（Henoch-Schonlein vasculitis）,是比较常见的一种系统性血管炎症疾病，临床症状主要为紫癜样皮肤损害以及肾脏

学位

过敏性紫癜IL-23IL-15酶联免疫吸附试验

农地整理过程中利益协调机制研究

农地整理不仅是实现耕地总量动态平衡、保障粮食和生态安全的重要手段,还是转变土地利用方式、城乡统筹发展和建设社会主义新农村的内在要求。由于目前农地整理资金供不应求,

学位

农地整理利益相关者利益矛盾利益协调机制公众参与项目质量

康德哲学中的自由意志研究

自由意志问题,这个古老而弥新,复杂而繁琐的问题历来困扰着无数的哲学家。在漫长的人类智慧史长河中,其中不乏少数的哲学家提出了一些很精彩独到的洞见和解决思路。然而,终究

学位

康德自由意志道德哲学法哲学宗教哲学

古典诗词类文本教学研究

古典诗词是我国文学艺术宝库中最灿烂、最耀眼的明珠，是中华民族智慧的伟大结晶，是汉语言高度浓缩的精华，在语文课程中占据重要地位，具有独特的价值和意义。而古典诗词类文本的教

学位

古典诗词文本特征教学策略

南昌市投融资信息服务平台的设计与实现

随着经济全球化的快速发展,在国民经济中占据重要地位的资本市场发挥了极大的作用,有效推动了全国经济的增长,使得我国的社会经济增长水平得到不断提高。为了适应当前金融资

学位

投融资信息服务平台B/S架构Visual Studio开发平台

网络环境下Y市政府信息资源共享管理研究

进入新世纪以来,以物联网、云计算为代表的先进信息技术迅猛发展,信息技术已经成为推动社会变革、人类生活方式转变的重要力量,信息化技术在国民经济各个领域得到了广泛运用,

学位

信息网络环境大数据政府信息资源共享管理

浅谈解决我国中小学生“聋哑英语”问题的对策

立足于我国中小学生“聋哑英语”问题进行调查与研究。浅谈“聋哑英语”产生的原因及对策。如何改变当今中小学生英语口语的“聋哑”状况?通过我多年教学实践和实际调查,本论

学位

我国中小学生聋哑英语对策

我国高技术企业应对美国337调查的对策研究

当今时代,知识和技术成为经济增长的主要推动力。高技术企业作为典型的知识技术密集型企业,可以说拥有了高技术优势,就拥有了在国际上的主动权。因此,各国纷纷把高技术企业作

学位

337调查高技术企业知识产权对策

基于BTM的短文本聚类

与本文相关的学术论文