论文部分内容阅读
随着时间的推进和网络技术的发展,一方面,人们的认知行为习惯在悄然发生变化,由早期的看书、读报纸演变成现在广泛利用社会媒体进行沟通交流。社会媒体平台成为人们进行信息传播和关系维系的重要途径和渠道。尤其在进入Web2.0时代后,社会媒体平台快速发展,聊天平台、购物平台、视频平台等融入人们日常生活的方方面面。另一方面,网络数据爆发式增长,文本是网络数据的一种重要载体,面对海量文本和快节奏生活,人们在碎片化时间里更青睐于浏览短小而精悍的文本,即短文本。社会媒体平台上也相继涌现出海量的短文本数据,比如微博、Tweet、视频或新闻标题、淘宝评论、QA问答等,如何组织和管理这些数据,短文本聚类方法也就应运而生,短文本聚类可以应用在话题发现、个性推荐、视频分类、信息检索等领域。近年来,短文本聚类的相关工作取得了很大的进展,研究者们尝试利用很多方法来改进短文本语义分析与处理,但不同于普通长文本,短文本通常自身信息量少,长度较短,一条文本平均包含10个单词,甚至更少,在利用传统的文本方法如词袋模型进行特征表示时存在高维稀疏的问题。同时短文本普遍缺少丰富的上下文语境,词语用法随意、不规范,使得在语义理解方面也面临很大的挑战。因此,针对短文本聚类的相关难点,本文做出以下贡献:(1)针对短文本聚类的稀疏特点,本文面向社会媒体中的网络视频,利用视频标题、相关查询词、共点击视频等数据,提出一种多源文本信息融合的视频短文本聚类方法,以克服由于单一短文本带来的语义稀疏问题。以优酷视频网站的真实数据为例,不同文本聚类算法的实验结果证明了多源文本数据融合方法的有效性。(2)针对短文本聚类的高维问题,本文提出一种基于网络嵌入的短文本聚类方法(Short Text Clustering Based on Network Embedding,NESTC),NESTC 首先利用网络嵌入的方法,从词关联网络中学习词汇间的语义关系,克服“词汇鸿沟”问题,将词语表示成低维、稠密、连续的实值向量,巧妙地避免了传统词嵌入方法伴随的大规模语料库依赖现象。之后,在词汇表示的基础上学习短文本间的距离,利用基于距离的聚类方法进行聚类分析。在多个社会媒体短文本数据集上的实验结果表明,NESTC方法可以有效提高短文本聚类的准确性。