基于神经语义主题的微博主题识别的研究

来源 :长春工业大学 | 被引量 : 0次 | 上传用户:Jiangzi1125
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年来,互联网相关技术得到高速的发展,特别是微博、Twitter等社交媒体网络平台的出现,使得社交媒体成为媒体和大众分享新闻事件和生活情感的重要媒介。新浪微博得益于应用平台广泛、操作逻辑简单和信息传播速度极快等特点,迅速成为中国规模和影响力巨大的社交媒体网络新平台。新浪微博的日发文量高达数千万,其中包含的文本信息规模巨大。应对庞大的微博文本数据,如何进行合理高效的信息整合并从中提取出热点主题是文本主题挖掘的核心问题。本文在神经主题模型(Neural Topic Model,NTM)的基础上,针对传统的文本主题模型对微博短文本的主题特征表达不够充分、微博主题挖掘不够准确以及挖掘的微博主题缺乏语义信息等问题,充分考虑微博文本的特点,提出了基于神经主题语义强化的微博主题模型(Microblog topic model based on neural semantics enhancement,MNTS)。首先将提取出来的微博文本语料划分成微博概要和微博博文两个部分,利用两个部分各自的特点给予不同的处理,其中微博概要是由含有大量的微博主题信息的短文本构成,利用微博的语义词向量构造单通道的文本特征矩阵来弥补原始神经主题模型输入向量空间维度高、特征稀疏和忽略大量文本信息的缺点。微博博文是对微博概要的展开描述,其中包含着微博概要中词项的权重信息,因此通过微博博文中词项相似度确定微博概要中词项权重,将微博概要的语义词向量与微博博文的权重信息相融合作为最终输入微博主题模型的文本特征。其次该模型为输出添加了额外的词袋模型文本特征表示,实现了主题和语义的同步训练。在真实的微博语料上进行对比实验表明MNTS主题模型不仅在识别主题的准确率上有所提高,而且在挖掘主题的语义连贯性上最高提升了0.6。为了更好的利用微博信息更充分的挖掘微博主题,类比于条件变分自编码网络,为MNTS主题模型引入类别标签作为条件,为主题模型的识别添加更多的指导信息。由于词项维度大且稀疏,往往会导致主题-词项分布中的词项概率值差别不明显,尤其针对测试微博文本,虽然能够精确的找到测试微博文本的主题,但是主题下的词项并不能完全表达测试微博文本的主题,针对这种情况,引入了评论文本对主题下的词项进行核查。通过引入类别标签和评论文本进一步增强MNTS主题模型的主题挖掘能力。
其他文献
在现代汉语口语表达中,表职业、职务义的“搞/做/干+X+的”构式群组中的三个子构式属于近义构式,作为常项的泛义动词“搞”“做”“干”有时能够互相替换使用,有时却不能互换,其中的变项“X”也有各自的限制条件,对此,既有研究往往语焉不详,教材及辞书也未对三者进行区分,这就使留学生经常混淆三个子构式的用法从而产生偏误。因此,本文借鉴构式语法理论、三个平面理论以及认知语言学相关理论,尝试归纳三个子构式之间
汉代社会,从汉武帝开疆扩土、文治武功起,就迫切需要有一种思想形态与大一统的专制制度相适应。自董仲舒建立“天人感应”的神学目的论起,到“石渠阁会议”将神学宇宙观以官学的形式确立下来,再到《白虎通义》的最终形成,整个社会笼罩在神学体系之下。东汉时期,谶纬迷信兴起,社会上更是充斥着各种五花八门的虚妄和谎言。应时代之需,王充以其非凡的斗争勇气,本着求实的精神,高举“疾虚妄”的批判大旗,坚持唯物主义的认识论
阅读是语言学习不可缺少的一部分。《高中英语新课程标准(2018)》强调培养学生的听、说、读、看、写能力。阅读能力作为英语学习中的五项技能之一,对其他四项技能的发展起着重要作用。随着《高中英语新课程标准(2018)》的出版,英语阅读课的导入应用引起了人们的极大关注。一个有效的导入可以大大提高教学效果,一个有趣的导入应用在英语阅读课上可以激发学生学习英语的兴趣。虽然导入持续时间很短,但在英语阅读课中起
悬索桥是大跨度桥梁中最经济、最美观和最具有竞争力的桥型。在其使用年限内会遭受不同形式的自然灾害,其中地震造成的破坏和损失较为严重。非线性有限元法作为一种模拟悬索
手性烯丙基化合物是有机合成中一类十分重要的中间体,其合成在近些年来受到广泛的关注。而过渡金属催化的不对称烯丙基化反应是用于快速构建具有立体中心的烯丙基化合物最重要和最有效的方法之一,在有机合成领域发展十分迅速。其中,酮的α-位不对称烯丙基化反应,是该领域中一个重要的研究方向。协同催化是指两种不同催化剂相互协作且互不干扰分别活化两种不同底物的催化策略。采用此策略可降低反应的活化能,实现单一催化剂无法
近些年发展的基于高通量测序的单细胞RNA测序(single cell RNA-sequencing,scRNA-seq)技术能够在单个细胞粒度上进行基因表达测序,进而可以获得单个细胞内数万个基因的表达信息,这为区分不同类型细胞的基因表达特征和全面揭示细胞之间的异质性提供了支撑。但是由于测序技术的限制以及基因表达高度复杂等原因,单细胞RNA测序数据存在噪声较大、维度过高、稀疏性较强等特点,这导致传统
随着我国道路建设不断深入发展,越来越多的公路、桥梁在盐湖等恶劣环境中建设,而盐湖中极高的氯盐含量限制了钢筋混凝土结构在盐湖地区的应用。本课题以内蒙古吉兰泰盐湖卤水侵蚀环境为背景,筛选并优化阻锈剂配比,制备出适宜在盐湖环境中应用的复合型阻锈剂,并与目前应用较为成熟的阻锈剂对比阻锈效果,分析阻锈机理。主要研究工作如下:(1)在吉兰泰盐湖地区取样分析盐湖卤水中盐离子含量,做卤水浸泡砂浆试验,试验证实经盐
本研究采用FeCl4-离子交换-NaOH沉淀-热处理,将纳米水合氧化铁(HFO)负载至丙烯酸阴离子交换树脂D213。首先,优化制备条件(FeCl3和NaOH浓度),考察复合吸附剂的材料性能和吸附性能,
锂空气电池相比于锂离子电池具有更高的理论比容量,可以满足人们在电动汽车、军事、航空等领域对储能系统的要求,是一种十分有潜力的新型储能技术。但是目前大多数锂空气电池
著名美籍华裔女作家谭恩美的新作《惊奇山谷》于2013年出版。谭恩美的作品多以在美国生活的华裔母女的生活经历为书写对象。然而在《惊奇山谷》这部小说中,主要的女性人物变成了一位美国母亲与其混血女儿。《惊奇山谷》这部小说主要记述了几位女性人物处在不同的时间、不同地域所面临的坎坷境遇。身份危机、文化冲突、种族歧视、父权制和封建习俗等因素不同程度地导致了小说中女性人物的悲惨境遇。最终,这些女性人物靠着其自强