中文短文本自动摘要算法

来源 :南京财经大学 | 被引量 : 1次 | 上传用户:yaocjs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社交媒体平台,如微博、推特等,以其操作便利性、信息共享性、用户互动性、话题丰富性以及更新即时性等特征,吸引着大量的用户在平台上进行信息的发布与分享,同时社交媒体也成为用户获取信息的重要来源,为企业的营销与推广提供了语料和契机。为了提升信息获取的全面性、多样性、准确性及效率,短文本自动摘要技术成为解决问题的核心技术之一。本文主要研究的是中文短文本摘录式摘要算法,综合考虑社交网络短文本的特点和基于聚类的文本自动摘要技术的优点,提出了适用于社交网络短文本的自动摘要算法。该类摘要的获取能够有效地过滤冗余信息和内容噪声,可以反映整个数据集各个侧面的关键信息,有利于企业战略决策和政府舆情控制等工作的开展,具有一定的现实意义[1]。首先,针对社交网络短文本文本长度较短、特征稀疏且上下文语义缺失的特点,本文提出借助词的外部语义来扩充词的语义信息,利用Word2Vec模型训练得到词向量,获得的词向量通过算术运算后仍具有语义上的联系,因此可以把对文本内容的处理简化为文本中词所对应的向量之间运算。其次,对词权重的计算,本文主要提出三类影响词权重的因素,词频、词的左右熵及词的覆盖率,借助TextRank的思路,通过构建影响力转移矩阵,重新设计词权重的计算方法。然后,结合词的权重和语义信息,本文提出新的短文本相似度计算方法,将短文本之间相似度计算的问题转化为“搬运优化”的思路解决,以提高短文本相似度计算的准确性。最后,本文提出将基于密度峰值的聚类算法应用到短文本集上,通过处理每个短文本的局部密度和到比它密度高的短文本的最短距离获得类簇的个数和聚类的中心,而后将所有的短文本分配到其所属的类簇。该方法只需迭代一次即可完成短文本集的聚类,有效地提高了聚类的效率与质量。根据词的权重来计算每个短文本的权重,将每个簇内的短文本根据权重进行排序,挑选各个簇内最重要的短文本组成摘要,保证摘要的覆盖面广、多样性强且冗余度少。
其他文献
图像集分类算法通过充分利用图像的集合信息来提高识别性能,得到了广泛的关注。但是现有的图像集分类算法存在如下问题:1)需要样本满足某种概率统计分布;2)忽略了图库集类与
每逢纪念毛泽东《在延安文艺座谈会上的讲话》,总会以延安文艺“‘大洋古’统治舞台”“与抗战无关”“不切实际”等不合理性,来说明《讲话》产生的历史合理性。笔者从史料观察
本文通过对汉语社会称谓的归类及使用状况的描述,揭示了汉语社会称谓的复杂性及其所包含文化内涵的多元性。
文章对石灰改良高液限粘土填筑的改良机理以及施工工艺流程进行了具体阐述,指出了石灰改良高液限土施工过程中的质量控制方法及碾压填筑后的质量检测指标,得出有益结论:压实
伴随《互联网医院管理办法(试行)》等监管政策和近日《关于完善“互联网+”医疗服务价格和医保支付政策的指导意见》的出台,业内认为,已经将药品采购和医保总额全部打通的县
报纸
从中医药文献中提取语义关系的方法,能充实中医药知识库系统,提升知识获取效率,改进知识检索效果。本研究通过搜集中医药文献并从中找出在一起频繁出现的词对,基于中医药学语
探讨舞狮运动的生理负荷特征及其对男大学生免疫机能的影响.测定了10名舞狮运动员一次套路演练中HR的变化、演练前后和6个月训练前后外周血清中NK细胞、T细胞亚群、免疫球蛋
由于科学技术及网络的不断发展,传统的户外运动及体育运动已经逐渐被手机上网及打游戏替代,越来越少的大学生在户外进行运动,给自身的免疫机能带来一定的影响。为了提高大学
人工智能技术的兴起推动着生产企业的改造升级。水务企业由于成本高,通过新技术降低成本提高效益成为必由之路。人工智能可在水务企业的电气设备故障诊断、设备管理、工艺调