微博中的社交意图识别与分类技术研究

来源 :内蒙古科技大学 | 被引量 : 0次 | 上传用户:tcgivihq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网用户的增加和微博平台的快速发展,微博用户规模呈现出快速增长的模式,产生了大量的社交网络数据,为微博用户的分析提供了数据基础。因此,对微博用户的关系,兴趣和行为的分析已逐渐成为学术研究的热点。其中,微博用户发布的绝大多数博文都有一定的社交意图,社交意图分析是指挖掘用户通过文本想要表达的一种意图,我们对大量微博分析研究发现,微博社交意图基本可分为营销推荐、新闻评论、知识传播、心情感悟及日常分享等几大类别,在微博社交意图识别的基础上,将其准确地分类可为相关应用提供基础支持服务。例如可通过用户博文的社交意图习惯可判定其身份背景和社交目的,总是播发营销广告的用户就可推断其为商户,其目的是向关注者推销商品,实现盈利;经常推发与学术研究相关信息的用户就可归类为研究人员,其目的是维护学术声誉和传播知识。现在微博是主流社交媒体,社交意图识别与分类除了可判断用户的身份背景和社交目的外,也可作为格调的判别依据,为微博用户的格调画像提供行为维度参考,如:总是在朋友圈中推发广告求赞的发布者格调层次就不会很高。也可为微博用户分类增加新的维度以及微博博文精准推送提供近一步支撑。为了更全面准确地挖掘微博用户的社交意图,综合考虑了微博用户的原创、转发的微博内容等信息,本文,将其识别转化为一种语义挖掘和文本分类结合的技术化简,降低了复杂度,并且对下游应用也影响不大,是一种非常智巧的处理方法。从文本处理角度来看,社交意图识别是基于语句级别,利用语句的语义特征进行分类,而句子中的关键词对意图标签的定义有辅助作用。因此提出一种基于词、句联合训练的编码器解码器模型识别微博短文本意图的方法,在微博文本中,除了句子能够反映意图类别外,句子中的名词、动词也能够对意图类别提供一定的指导,因此我们采用词、句联合建模的方法,从而更精确地识别出微博短文本的社交意图类别;最后,为了更准确地识别微博用户的社交意图类别,我们通过分析了大量的微博用户信息构建了意图类别库。通过python爬虫程序收集了大量真实微博用户的博文内容作为数据集,并且通过我们进行的实验验证了我们提出的基于词、句联合训练的编码器解码器模型的有效性。实验结果显示,通过基于词、句联合训练的编码器解码器模型能够准确的识别出微博用户发表博文的社交意图类别;并且对比了本文提出的方法和BERT预训练语言模型在此任务上的效果。实验表明,该方法在我们的数据集上可以获得最好的准确率以及最好的F1值。
其他文献
在边界润滑条件下,添加剂会通过物理/化学吸附或摩擦化学反应与摩擦副表面相互作用而达到减摩抗磨的目的。但无论生成吸附膜还是摩擦反应膜,添加剂在摩擦副表面的吸附是润滑
《秋》是由黄河、王瑟共同创作的扬琴组曲《四季》中的第三乐章,是扬琴现代音乐中非常出色的一首作品。此曲创作距今已十余年,被扬琴专业学习者熟知。曲作者寓情于景,通过音乐表达出四季美景的美感。本论文旨在分析现代扬琴作品《秋》的创作特点,便于笔者进行演奏及研究,为更多的扬琴专业学习者提供理论基础。全文分四个部分对《秋》进行多角度分析,作为专业学习者的角度来阐述《秋》的演奏难度以及作品内涵的诠释,通过剖析现
随着风电、光伏等分布式电源的并网容量逐渐增加,传统的调度管理模式已经无法适应新的配电网结构,出现了很多弊端,如:电压不稳定,电能质量降低、网络损耗增大等问题。由于风
琼东南盆地陵水凹陷黄流组发育陆架边缘三角洲和中央峡谷。通过对陆架边缘三角洲与中央峡谷之间的关系研究,可以更深刻地认识陆架边缘沉积环境和陆架边缘三角洲对中央峡谷发育的影响。本文基于二、三维地震数据和钻测井资料,通过对陆架边缘三角洲、陆坡中央峡谷形态表征,进一步探索二者之间的关系;另外,通过定量分析陵水凹陷北坡陆架边缘迁移轨迹特征,总结迁移轨迹的演化规律。得出以下结论:(1)陵水凹陷北坡黄流组I段发育
木质纤维素生物质资源替代化石资源具有很好的前景,而这一关键的前提是通过预处理将木质纤维素组分进行有效分离。目前,木质纤维素资源的利用上仍缺乏一种清洁高效的组分分离
海洋是地球上重要的生态系统,地球表面71%的面积被海洋覆盖,同时海洋中蕴藏着大量的微生物资源。南极海域独特的自然环境,如低温、高辐射、寡营养和高盐度等,决定了生活在其
在化工、环境、能源、工业、石油等领域广泛存在气泡穿越固液两相流动过程。在该过程中,气泡作用下的颗粒运动和分布(沉降、悬浮、夹带)很大程度上决定了固液分离效率和设备参数,但由于该过程是一个非稳态、多尺度的复杂多相流动过程,关于其流动机制与颗粒分布规律的研究十分有限,因此本文以气泡穿越固液两相过程作为研究对象,采用数值模拟的方法对气泡穿越固液两相流动过程中气泡的运动和颗粒的运动分布规律进行理论研究,揭
糖尿病是由多种因素引起的以血糖升高为主要特征的疾病,其中90%为2型糖尿病患者。糖尿病也是一种慢性疾病,一旦患病,需要终生服药,而且长期高血糖会严重损害人体的各个组织器官,导致遍布全身的并发症。因此,如何预防糖尿病及其并发症,挽救糖尿病患者的生命健康,对我们提出了新的挑战。共晶制备技术是将两个甚至多个分子通过非共价键连接成超分子结构,从而改善原有活性药物成分的物理化学性质或药理活性。二甲双胍作为当
气泡广泛存在于化工、环境、矿业和能源等诸多工业生产过程,其运动行为直接影响着相关工艺流程的正常和高效运行。实际上,气泡的运动行为往往伴随着气液或气液固等多相流动过程,因此对气泡运动规律的揭示和认知一直是研究的热点和难点问题。为此,本文以气泡为研究对象,通过实验研究手段,揭示气泡在纯水和固液悬浮液中的生成、脱离以及上升运动等一系列的行为过程;研究管口布置方式、管口尺寸、气体流量以及固体颗粒等因素对气
储集层质量的好坏是影响致密砂岩油气高效勘探与开发的重要因素,而微观孔喉结构则是影响油气充注、运移,控制储层含油气性以及决定储层储集和渗流能力的关键,已成为当下致密砂岩储层研究的热点和难点问题之一。由于沉积和差异性成岩作用导致致密砂岩储层非均质性强、微观孔喉结构差异大,造成储层质量及含油性评价困难。因此,本次研究以鄂尔多斯盆地西南部马岭地区长8致密砂岩为例,利用岩心观察、铸体薄片、扫描电镜、X全岩及