论文部分内容阅读
社交媒体平台,如微博、推特等,以其操作便利性、信息共享性、用户互动性、话题丰富性以及更新即时性等特征,吸引着大量的用户在平台上进行信息的发布与分享,同时社交媒体也成为用户获取信息的重要来源,为企业的营销与推广提供了语料和契机。为了提升信息获取的全面性、多样性、准确性及效率,短文本自动摘要技术成为解决问题的核心技术之一。本文主要研究的是中文短文本摘录式摘要算法,综合考虑社交网络短文本的特点和基于聚类的文本自动摘要技术的优点,提出了适用于社交网络短文本的自动摘要算法。该类摘要的获取能够有效地过滤冗余信息和内容噪声,可以反映整个数据集各个侧面的关键信息,有利于企业战略决策和政府舆情控制等工作的开展,具有一定的现实意义[1]。首先,针对社交网络短文本文本长度较短、特征稀疏且上下文语义缺失的特点,本文提出借助词的外部语义来扩充词的语义信息,利用Word2Vec模型训练得到词向量,获得的词向量通过算术运算后仍具有语义上的联系,因此可以把对文本内容的处理简化为文本中词所对应的向量之间运算。其次,对词权重的计算,本文主要提出三类影响词权重的因素,词频、词的左右熵及词的覆盖率,借助TextRank的思路,通过构建影响力转移矩阵,重新设计词权重的计算方法。然后,结合词的权重和语义信息,本文提出新的短文本相似度计算方法,将短文本之间相似度计算的问题转化为“搬运优化”的思路解决,以提高短文本相似度计算的准确性。最后,本文提出将基于密度峰值的聚类算法应用到短文本集上,通过处理每个短文本的局部密度和到比它密度高的短文本的最短距离获得类簇的个数和聚类的中心,而后将所有的短文本分配到其所属的类簇。该方法只需迭代一次即可完成短文本集的聚类,有效地提高了聚类的效率与质量。根据词的权重来计算每个短文本的权重,将每个簇内的短文本根据权重进行排序,挑选各个簇内最重要的短文本组成摘要,保证摘要的覆盖面广、多样性强且冗余度少。