融合LDA与TextRank算法的主题信息抽取方法

来源 :山西大学 | 被引量 : 7次 | 上传用户:lijincai0122
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
主题模型的构建是自然语言处理的重要任务和关键步骤,该方法旨在抽取文档中的主题信息:主题词或主题句,以方便人们阅读信息并对文本信息进行进一步的应用。随着互联网的发展和媒介的更迭,社交媒体成为人们获取、传递、交流信息的载体和平台。其中,微博作为国内用户数量多、用户活跃度、用户粘性最高的社交媒体,每天产生着大量的文本类非结构数据,具有较大的信息价值,成为学术研究的热点。此外,微博的文本信息碎片化程度较高,同一类型的话题会产生大量的相关微博内容或转发评论内容,所以对微博信息进行主题词提取,具有较高的科研价值。针对这一研究目的,本文对几类现有的主题模型算法进行了分析对比,主要工作内容如下:(1)针对微博这一网络文本的特点,提出了一种基于LDA和TextRank算法融合的主题信息抽取方法,对微博文本进行主题信息的抽取。(2)针对TextRank算法在主题信息抽取时的不足,本研究将文本的信息与文本主题所包含的权重相结合,提出一种将LDA算法计算得到的权重影响因子用来初始化TextRank算法中每个顶点的权重数值的融合算法。(3)通过实验对比LDA算法、TextRank算法、以及本文提出的融合算法在主题模型中的效果,验证了融合算法的有效性。本文主要为主题建模算法提供了一种补充,表明不同主题模型算法的融合对于文本主题信息的提取更有效,为以微博文本为代表的大量网络文本的语义分析与挖掘提供了新的思路。
其他文献
【正】 从总需求与总供给的交换行为看,两者应该是平衡的.但现实经济生活中两者却并不平衡,经常表现为需求膨胀.本文试就我国社会需求膨胀的原因、及其控制的措施谈几点看法
The existing maintenance strategies of offshore wind energy are reviewed including the specific aspects of condition-based maintenance, focusing on three primar
目的总结老年左心衰竭误诊病例特点,寻找误诊误治原因。方法分析5年来我院43例老年左心衰误诊病例,研究其临床表现、诊治情况。结果缺乏严谨诊查态度以及缺少临床知识积累是
医院感染是伴随着医院的建立而发生的,随着医学科学的发展,新的诊疗手段特别是侵袭性操作的增多,抗生素的更新及使用致使耐药菌株的产生、细菌谱的变异,人群老龄化及慢性疾病
生猪、肉鸡、水产等养殖过程中,因养殖密度高,不少养殖户为降低畜禽感染发病率,提高效益,习惯在饲料中添加各类抗生素.如今,养殖业抗生素滥用已成为了行业公开的秘密,正威胁
多年来,语文教学一直在"少"、"慢"、"差"、"费"的怪圈里徘徊,语文考试的分数是所有科目中最低的,语文教改喊得最响,语文教师遭受的指责也最多,受了不少冤屈,心中有倒不完的苦水。素质
【摘要】在小学数学教材中计算所占的比重很大,尤其是低年级,学生计算能力的高低直接影响着学生学习的质量,所以提高学生的计算能力,就要从低年级的学生入手,认真、严格的训练,这样才有助于培养学生的数学素养,有助于培养学生解决问题的能力,有助于树立学生认真、细致、耐心、不畏困难的品质。  【关键词】兴趣 习惯 算例 计算  多年来,常常听到一些家长说这样一句话:“我的孩子太粗心了,每次考试计算上总出问题。
早美光油桃简易塑料大棚栽培技术吴远峰(山东省费县上冶镇果树站273401)早美光油桃1979年由美国育成,外观艳丽,风味浓郁。本县北村1992年引进早美光油桃半成品苗600株,进行简易塑料大棚保护地栽培,3年
灵感来自书籍装订设计,Pages椅子让你可以随时通过为椅子"翻页"来改变空间存在的颜色。据介绍,这款椅子一共配备了12种不同颜色的布艺"页",让用户长期保有新鲜感。
建立了近壁面区池沸腾系统分子动力学模型,将壁面对流体的作用作为附加力引入,从成核位置、平均分子动能和界面接触热阻三个方面研究了壁面润湿性对液氩沸腾核化的影响规律和