【摘 要】
:
互联网的发展和智能手机的普及,造成信息数据形式更加的碎片化。面对大量的短文本数据,如何扩展短文本语义,降低语料数据的噪声,并利用这些数据对短文本内的情感信息进行合理
论文部分内容阅读
互联网的发展和智能手机的普及,造成信息数据形式更加的碎片化。面对大量的短文本数据,如何扩展短文本语义,降低语料数据的噪声,并利用这些数据对短文本内的情感信息进行合理有效的分析,是目前迫切需要解决的问题。文本情感极性分析是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。本文选取短文本情感极性分析问题作为研究驱动,通过未登录词识别、文本主题挖掘、深度学习文本特征扩展短文本语义、降低短文本稀疏性,提高短文本情感极性分析的效果。本文的主要工作如下:1、提出了基于短文本特征的NC-value算法。算法提升了短文本预处理过程中未登录词的识别效果及分词质量。通过分析未登录词的特征,融合基于规则和基于统计的未登录词识别方法,结合自由度和互信息有效解决了传统C/NC-value算法无法准确识别未登录词边界和短文本中大量出现的低频词汇的问题。辅助后续的文本语义挖掘和情感极性分析。2、提出了基于主题模型的概念语义扩展模型CSET(Conceptual and Semantic Enrichment with Topic Model)。将BTM(Biterm Topic Model)主题模型与概率知识库Probase相结合,通过Probase概念图谱挖掘短文本中的术语和概念,并构建主题模型预测术语和概念之间的语义关系;提高了短文本表示模型的语义性。3、在前述工作基础上,本文提出基于语义扩展的短文本情感极性分析模型——SESA模型。模型中使用深度学习挖掘短文本特征。联合传统卷积神经网络模型与双向长短时记忆人工神经网络模型,并加入基于注意力的池化机制,借助两个模型的优势,较好地对短文本进行语义学习和深度特征挖掘,提高了短文本情感分析效果。上述的算法和模型,本文在相对应章节进行了相关的实验验证,实验结果证明这些算法和模型的有效性。
其他文献
近年来,国家大力提倡发展清洁能源,水电作为一种清洁能源已成国民经济发展的绿色动力。水利水电工程建设中,爆破作为岩体开挖、混凝土拆除的主要手段,发挥了重要作用。随着对
集装箱船舶的配载是影响集装箱运输竞争力的重要因素,主要包括堆场取箱和船舶贝位配载两方面。现有的研究大都针对其中的一个方面进行了较成熟的研究,对堆场和船舶进行整体优
混流泵有着流量大,扬程低的特点,其在水处理,水利工程以及电站的水循环系统中都有着广泛使用。混流泵的出现时间在离心泵和轴流泵之后,在水力特性上混流泵的流量和扬程参数介
近年来,棕色脂肪作为一种可以进行适应性产热的组织,被众多相关研究确认为一种有望解决肥胖、糖尿病、和相关代谢疾病的明星靶点。对棕色脂肪进行成像并做定性定量的分析可以
本文是关于美国作家路易莎·梅·奥尔科特(Louisa May Alcott)的儿童文学作品《丁香花下》(Under the Lilacs)节选部分的翻译报告。原文以儿童为主角,讲述了一个富有童趣又充
研究背景心电图早复极改变亦称早复极图型(early repolarization pattern/variant ERP)即心电图中存在早复极波(early repolarization wave ERW)或J波,是一种心电复极异常的
随着社会经济的飞速发展,环境保护问题已受到人们的广泛关注。氮氧化物作为当今世界最主要的大气污染物之一,能造成酸雨、光化学烟雾和雾霾等环境问题,严重危害人类健康和自
互花米草因具有良好的消浪促淤、保护堤岸特点,于1979年作为“生态工程”物种引入我国。然而,互花米草凭借极强的适应性和繁殖能力,在滨海湿地快速扩展蔓延,对我国东部沿海生
中等挥发性有机物(IVOCs)是二次有机气溶胶(SOA)的重要前体物。高效、精确地观测大气中IVOCs的浓度水平和组成分布特征,有助于深入了解PM2.5、O3的污染过程,为污染防控、制定大气
水利水电工程建设中,土石过水围堰在施工导流中应用越来越广泛。土石过水围堰汛期度汛洪量大,下游堰面在水流作用下可能发生失稳,引起围堰结构破坏,给主体工程施工安全与施工