基于聚类的短文本挖掘算法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:hy1208
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,伴随着互联网的普及,搜索引擎、互联网聊天、电子邮件、论坛评论、电商购物、音视频网站、微博、手机短息、文档文献等深入影响着我们的生活,其中产生了大量的互联网短文本。目前,互联网公司是短文本挖掘的主力军,积极研发短文本分类技术,发现短文本数据数据潜在价值,具有非常重要的研究意义和巨大的应用价值。目前,深度学习已广泛应用于图像识别和语音识别等领域,实际效果表明深度学习中的各种模型能够更有效地解决问题。为了进一步提高短文本分类效果,本文主要研究面向短文本的卷积神经网络模型及其分类技术。本文详细阐述了各种文本聚类、分类方法,并对短文本特点和要研究的问题进行了分析。针对数据预处理、中文分词、特征提取、聚类算法研究等步骤,提出短文本SkipGram向量生成方法。针对短文本进行特征提取过程中词与词在连续低维空间中的语义关系和特征的表达能力问题,提出采用Skip-Gram神经网络语言模型来训练word embedding方法,利用语句word embedding组合为二维特征矩阵的形式,用来代表该条样本的分布式特征。针对短文本特征表示中存在的稀疏性问题,基于深度学习技术,提出了一种基于ShortTextCNN的半监督文本聚类算法,通过卷积神经网络生成短文本的向量表示,结K-menas算法提高了聚类效果。通过在中文数据集上进行的实验分析,验证了ShortTextCNN+kmeans算法在短文本聚类上的有效性。
其他文献
根据水务工程建设智慧工地实施方案的主要内容,结合水务工程建设管理的实际需要,有效地将人员监控、区域定位、工作考勤、环境监测、设备监控、文件资料等资源进行整合,构建
东亚一体化的原动力之一是东南亚地区的一体化,最近几年蓬勃发展的中国-东盟合作则为东亚一体化进程增添了新的动力。冷战结束后,中国-东盟经济合作的步伐逐步加快,从发展双
目的:探讨T组合复苏器(T-piece)在新生儿重度窒息复苏中应用的临床效果。方法将诊断新生儿重度窒息患儿48例,按出生先后随机分为A、B两组,A组患儿予自动充气式复苏囊正压人工通气,B
回顾了辩证唯物主义层次论、突变论、突现论、系统论、耗散结构论、协同论等多学科视角下层次哲学的主要观点,认为客观世界是多层次的统一整体,层次是客观事物的固有属性。经
<正>我们采用脉冲多普勒技术检测20例尿毒症患者 RSTI,并与35例健康对照组进行对比. 受检者分:健康组35例,尿毒症组20例.采用HP77020AC彩色多普勒仪并同步记录心电图.常规超
会议
以贵州省独山锑矿区周围农用土壤为研究对象,用消解仪消解土壤样品并用AFS-8220原子荧光光度计测量其中锑含量,结果表明该地区锑污染已经十分严重,最高区域的含量达到220.80m
从理论分析和试验研究两个方面,对单边螺栓T形节点的抗拉性能进行了研究,该连接方式是通过在连接的钢板上设置带有螺纹的螺栓孔,代替普通螺栓的螺母,从而实现单边连接。以欧
战后,日本的安全保障越来越主要围绕经济和其相关领域采讨论,在不同时代经济安全保障理论和政策体现出不同的特征。20世纪50年代,在美国安全保障政策的缝隙中寻求经济复兴与安定
山西民族民间音乐丰富多彩、独具魅力,具有鲜明的文化特征。随着我国文化强国战略的实施,民族音乐文化建设开始受到更多的重视。对此,山西省各界需要增强对于民族音乐文化现
采用高温固相反应法制备出新型红色长余辉发光材料Gd2O2S:Eu^3+,Xn+(X为Mg、Si、Ti中的一种或两种),研究掺杂离子对Gd2O2S:Eu^3+磷光体的晶体结构、形貌粒度和发光性能的影响。通过X