社交网络数据摘要方法

来源 :厦门大学 | 被引量 : 0次 | 上传用户:scnbyfy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
处于社交网络时代的我们,人人都是知识内容的发布者。知识内容主要来自于途径,一个是用户的发布内容(微博,博客)等,另外一个是用户之间的交互(标签,评论,回复)。这些内容之间包含了巨大的信息等待挖掘,例如舆论态度,用户的性格爱好等。然而由于这些语料规模巨大,给数据挖掘带来了极大的挑战。对这些庞大的语料进行摘要整理,显得尤为重要。文本摘要在自然语言处理领域是一个由来已久的课题。前人提出的方法已经有效且广泛的运用在纯文本语料上面,但是在社交网络的语料上却表现不佳,主要原因在于忽视了社交网络语料的“社交”属性,主要体现在文本的长度较短,用语不规范,口语化,未登录词较多等。这些特点使得传统方法对于语料的推断往往不准确;此外,语料中包含的评论,回复,作者自行添加的标签等信息无法在传统方法中被利用起来,而这些信息往往对语料主题的推断很有帮助。基于以上原因,我们提出了适用于标签语料数据的文本摘要方法,这种方法可以完成三个不同场景的摘要任务,分别是标签摘要,对比摘要,实时摘要,该模型不仅根据数据自行推断主题数目,还描绘了社交语料主题演化过程中“富者更富”的现象。此外,在线辩论数据作为民意舆论的重要载体,也存在摘要的需求。用户可能只会参与部分辩论,使得辩论数据中存在大量缺失项。其稀疏性使得特征选择变得困难。本文提出一种基于集成学习的话题选择方案,根据不同群体的属性,对所有话题进行摘要,提出一个能够显著区分群体党派的话题子集,即为该群体的关注热点。本文分别为社交网络语料中带标签的语料数据和在线辩论数据提出了各自的摘要方法,并通过实验证明了方法的有效性。
其他文献
为揭示森林叶面积指数与林分因子、地形因子之间的变化规律,本研究以河北省燕山北部的阔叶林和针叶林为研究对象,通过实地调查以及遥感数据的获取,运用曲线估计叶面积指数与
在实际细分加工领域应用中,存在很多需要利用直线电机控制高精度横移运动的加工场景,而这类加工机构往往只利用了单台直线电机,因为内部存在的不可克服的不确定阻力的影响,这
报警系统作为控制系统的重要组成部分,用于实时监测过程变量的报警状态并发布报警信息,以便于工作人员及时进行故障维修或隐患排除。EPICS(Ex-perimental Physics and Indust
猪脑心肌炎病毒(Encephalomyocarditis virus,EMCV)是小核糖核酸病毒科,心病毒属的成员之一。EMCV基因组全长大约7.8 kb,为单股正链RNA,可以直接作为模板翻译成一个大的多聚
自动重合闸广泛应用于输电线路,但若重合于故障,短路电流会在短时间内对系统和设备造成两次冲击,导致严重的后果,因此自适应重合闸的概念被提出。自适应重合闸的研究内容主要
随着汽车、航空航天、机器人、材料试验等诸多工业与科研领域对动态力测量的准确度要求不断提高,力传感器作为测量中最重要环节,其动态性能显得日益重要。然而现今力传感器普
本研究根据新马克思主义空间理论和文化人类学的地志学进路,试图通过对一个乡村社会(汉村)从清末至今的空间景观、家屋地貌、村落格局、日常生活生产方式变迁以及社会事件等
植物细胞应对重金属胁迫的最初表现为细胞壁硬化与伸展性受限,即重金属改变了植物细胞壁的力学性能。本论文采用多聚赖氨酸修饰膜黏附水稻悬浮细胞,并通过石英晶体微天平技术
人脸分析一直以来都是计算机视觉和模式识别领域研究的热点问题之一。人脸分析通过对人脸图像进行分析来获得身份、年龄、性别、表情等关键信息。常见的人脸分析任务包括人脸
因人类过度使用引起的能源短缺、以及逐渐恶化的环境污染问题,促使科研工作者将能源研究的重点转移到可持续和可再生能源领域,例如太阳能、风能、潮汐能等。为了满足对新兴能