基于中文社交短文本的词嵌入优化

来源 :西南财经大学 | 被引量 : 0次 | 上传用户:bufegar
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
舆论环境的好坏关乎国家稳定和经济发展,近年来我国互联网新媒体技术高速发展,舆论传播的途径也发生了重大变化,从传统新闻等长文本转向以社交短文本为主。有研究显示,新浪微博是当前我国舆情发源与传播的主要平台,而微博上的文本信息具有内容简短、传播速度快、内容多元化、时效性高等几乎所有社交短文本的特点,精准把控以新浪微博为代表的社交平台上的海量信息可以说是我国舆论治理的重要组成部分。
  新浪微博目前每日更新已经能够高达上亿条新微博,人工监测的方式只能作为辅助,主要还是需要提高计算机科学领域的自然语言处理水平,而词的语义表示在自然语言处理中属于基础性的工作。当前主流的词义表示方法是词嵌入技术,即将词表示为低维实值向量,目前大多数中文词嵌入技术直接沿用了英文的解决思路,忽略了两者在结构、语义、语法等方面的差别,且多局限于目标词的上下文词信息。本文在传统的词嵌入模型的基础上,引入外部组成上下文词的汉字信息,再结合适用于中文短文本的主题模型,提出了一个新的基于中文词结构与主题模型联合的词表示模型CTWE。考虑到不同上下文词对于目标词的语义贡献的差异,CTWE模型利用中英互译对组成中文词的汉字的不同语义进行归纳处理,以汉字和词语间的语义相似度为权重构建词向量,并结合主题模型为每个词赋予基于全局统计的信息,联合这两部分信息来训练词嵌入模型可以更精准的利用词结构内部的汉字语义信息和文档的全局信息,提升词嵌入的效果。
  本文用真实的新浪微博文本数据训练模型,并在语义相似度、类比推理、文本分类三个任务上比较了模型的有效性,结果显示相比于CBOW、Skip-gram、CWE、TWE模型,CTWE模型得到的词嵌入的效果均有所提升。
其他文献
学位
学位
学位
学位
学位
随着经济全球化的不断发展,各国间贸易关系不断加深,但同时贸易摩擦频繁产生,其中以中美贸易战为典型代表。中美双方分别以关税政策做为武器对彼此之间商品进出口贸易造成巨大损害,阻碍各行业发展,双方国家进出口数据均有所下滑,对双方农业与工业品生产造成巨大影响。同时,中国经济在经历改革开放几十年飞速发展后,经济增速进入平缓期,由两位数增长转向“争八保七”再到2019年三季度的6.0%增速,增速的放缓已逐渐成
学位
变点,指某个状态前后,模型结构或分布发生系统性改变的点。变点广泛存在于社会学、生物医学、药学、气候学、金融计量经济学、风险管理等以及工业生产等应用领域。变点发生前后,模型是异质的,忽略变点进行研究,会产生错误的结论,因此结构突变模型的估计非常重要。值得注意的是,虽然研究结构突变模型的工作已经不少,但是广义线性模型下的变点研究还较少。因此本文考虑带有协变量门限效应的广义线性模型的统计推断。我们采用极
我国的经济社会发展在取得巨大成就的同时,仍然存在着很多问题。其中一个突出的问题就是发展在地区之间是不平衡的,这种不平衡表现在收入、教育、医疗等诸多方面。发展成果未能在城乡之间、地区之间、个人之间均匀分配,这可能会引发一系列的社会问题,危及我国经济社会的进一步发展。因此,研究中国的不均衡问题尤其是从多维角度研究不均衡问题意义重大。  Zenga指数是Zenga于2007年提出的新指数,用于测度一种社
学位
我国石油储备不足,长期依赖进口原油,面对国际价格,我国只能被迫接受,面临诸多原油价格波动风险。为提高我国原油定价话语权,为相关投资者提供套期保值工具,2018年3月26日,中国原油期货在上海证券交易所正式挂牌交易。作为我国第一个国际化期货品种,我们对它寄予厚望,中国原油期货的发展现状对于相关企业、政府和投资者十分重要。因此中国原油期货上市近两年来,在国际上处于什么地位,对中国股票市场又有什么作用值
学位
随着以互联网和信息通信技术为代表的第三次科技革命的到来,当今社会正进入新的历史发展阶段,经济和产业结构发生重大变革。相较于传统经济的缓慢发展,数字经济异军突起,逐渐成为引领科技发展、产业变革和创新经济增长方式的新动能。以数字经济产业为核心业务的上市公司是发展的主要力量,起着技术研发、产品生产和提供服务的作用。因此,从上市公司主营业务收入角度来衡量数字经济发展状况,建立景气监测和预警具有十分重要的意
学位