社会媒体短文本聚类研究及应用

来源 :北京交通大学 | 被引量 : 6次 | 上传用户:tigerbi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着时间的推进和网络技术的发展,一方面,人们的认知行为习惯在悄然发生变化,由早期的看书、读报纸演变成现在广泛利用社会媒体进行沟通交流。社会媒体平台成为人们进行信息传播和关系维系的重要途径和渠道。尤其在进入Web2.0时代后,社会媒体平台快速发展,聊天平台、购物平台、视频平台等融入人们日常生活的方方面面。另一方面,网络数据爆发式增长,文本是网络数据的一种重要载体,面对海量文本和快节奏生活,人们在碎片化时间里更青睐于浏览短小而精悍的文本,即短文本。社会媒体平台上也相继涌现出海量的短文本数据,比如微博、Tweet、视频或新闻标题、淘宝评论、QA问答等,如何组织和管理这些数据,短文本聚类方法也就应运而生,短文本聚类可以应用在话题发现、个性推荐、视频分类、信息检索等领域。近年来,短文本聚类的相关工作取得了很大的进展,研究者们尝试利用很多方法来改进短文本语义分析与处理,但不同于普通长文本,短文本通常自身信息量少,长度较短,一条文本平均包含10个单词,甚至更少,在利用传统的文本方法如词袋模型进行特征表示时存在高维稀疏的问题。同时短文本普遍缺少丰富的上下文语境,词语用法随意、不规范,使得在语义理解方面也面临很大的挑战。因此,针对短文本聚类的相关难点,本文做出以下贡献:(1)针对短文本聚类的稀疏特点,本文面向社会媒体中的网络视频,利用视频标题、相关查询词、共点击视频等数据,提出一种多源文本信息融合的视频短文本聚类方法,以克服由于单一短文本带来的语义稀疏问题。以优酷视频网站的真实数据为例,不同文本聚类算法的实验结果证明了多源文本数据融合方法的有效性。(2)针对短文本聚类的高维问题,本文提出一种基于网络嵌入的短文本聚类方法(Short Text Clustering Based on Network Embedding,NESTC),NESTC 首先利用网络嵌入的方法,从词关联网络中学习词汇间的语义关系,克服“词汇鸿沟”问题,将词语表示成低维、稠密、连续的实值向量,巧妙地避免了传统词嵌入方法伴随的大规模语料库依赖现象。之后,在词汇表示的基础上学习短文本间的距离,利用基于距离的聚类方法进行聚类分析。在多个社会媒体短文本数据集上的实验结果表明,NESTC方法可以有效提高短文本聚类的准确性。
其他文献
西部大开发是关系到我国改革、发展和全局稳定的重大问题。本文论述了西部大开发战略提出的哲学基础 ,论证了西部大开发的必然性 ;并对西部大开发进行哲学思考 ,试图进一步探
行动研究是教师研究自身教育实践中的问题,改善教育活动质量的一种教育实践研究形式,这种研究形式使幼儿教师可以在自己的教育实践中,开展研究工作,在研究状态下进行教育工作
目的:利用响应面法对葡萄皮渣中可溶性膳食纤维的酸法提取工艺进行优化。方法:在单因素试验基础上选取试验因素与水平,根据Box-Behnken试验设计原理采用四因素三水平的响应面
目前我国女性消费行为呈现出以下特点:受压抑之后的暴发户式的消费;言行不一的消费:象征性消费。
近几年来,在大学校园里,出现了由生活困难学生、学习困难学生、就业困难学生、人际交往困难学生等构成的大学生困难群体。这些困难群体是如何形成的?我们应采取什么样的对策
马克思主义哲学何以在中国得到广泛传播。文章从马克思主义哲学与中国传统哲学在哲学基本问题回答上的不可回避;唯物主义与辩证法相统一的哲学基础;知行统一在实践观上的相通
以两株嗜酸乳杆菌(KLDS AD1、KLDS AD2)和3株双歧杆菌(长双歧杆菌KLDS 2.0001、婴儿双歧杆菌KLDS 2.0002和KLDS 2.0604)分别发酵的酸乳为研究对象,测定其pH值、滴定酸度、质
研究麦麸中蛋白质、水不溶膳食纤维、水溶膳食纤维等功能成分的提取工艺。以麦麸为原料,采用醇碱提取-盐析的方法同时提取麦麸蛋白和水溶性膳食纤维,利用α-淀粉酶去除淀粉提
发展农村旅游业是建设社会主义新农村的重要途径。开发农村旅游市场是社会主义新农村建设的新亮点,是构建社会主义和谐社会的新支点,是促进我国旅游经济发展的新起点。开发农
我国中小企业在国民经济中具有重要的战略地位,但同时在财务管理方面还存在着许多问题需要解决,面对新的世纪,中国加入世贸组织和知识经济时代的到来,急需重新审视发展中存在