基于互信息和左右邻接熵改进的新词发现算法及情感分析

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:asxy7777
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在科技高速发展的今天,人们的生活方式在悄然发生着变化,交流和表达习惯也随之更替。在此过程中,网络上的新词层出不穷,特定领域的专业术语和固定表达也不断产生,新词的频繁出现影响着中文语言处理技术的准确性,给自动分词、情感分析等任务带来巨大挑战。现如今对新词识别的研究已经有很多,但识别新词的准确率并不高,针对这一现象,本文主要研究新词识别算法,基于互信息和左右邻接熵改进的无监督方法,旨在进一步提升新词识别的准确率。本文先研究识别新词过程中的难点,学习研究现有的新词发现算法,考虑到传统算法的不足之处后,提出本文的核心算法,基于Smooth NLP算法,给出了具体改进后的新词发现算法,定义了新的指标,将左、右邻接熵通过一定形式的结合定义为新的统计量来衡量候选词的边界自由度,并结合平均互信息对候选词进行筛选,再通过低频词过滤、停用词过滤等方法来去除不符合规则的垃圾词串,最终完成新词识别。本文提出的新算法可以更有效地识别新词,准确率较高。作为改进后的新词发现算法的应用,在新词识别的基础上,对新词情感进行判断,采用基于词向量和情感词典的判别方法,将候选词语转成词向量后,在候选词中选取出新词的相似词,统计其情感信息并选出情感相似词,计算新词与情感相似词间的情感倾向点互信息,从而完成新词的情感极性判别。通过对新词情感判别来作为新词发现的应用之一,在现实生活生产中具有较好的实际意义。
其他文献
随着电商行业的快速发展,网络购物已经深入到人民群众的日常生活当中。鉴于电子商务的关键特征是消费者与零售商之间的空间分离,消费者必须依赖特定的运输策略和方式来接收他们的订单,而免运费作为一种有效的营销策略已经成为许多电商企业采用的重要竞争手段之一。且随着人们越来越重视服务体验,对运输服务的品质和时效也有了更高的要求,如何为消费者提供多样化的运输服务以满足不同消费者的异质性需求和提升零售商的利润与竞争
学位
近年来,随着经济的快速发展,航空客运需求不断增长,许多国际大都市的枢纽机场长期处于超负荷运行状态。由供需不均衡诱发的机场拥挤和航班延误等问题日益严峻,导致乘客满意度大幅降低,机场运营效率不断下降,成为制约民航业发展的重要因素。同时,随着高铁的快速发展,乘客出行拥有更多选择。为改善枢纽机场的拥挤问题,政府鼓励航空公司和高铁开展合作,引入“空铁联运”服务,通过高铁将枢纽机场部分乘客引流至周边的非拥挤机
学位
<正> 答:风寒喉痛,民间俗称“寒火”,其火者,疼痛之意。习惯用生姜3片,炒鸡内金约10g,煎汤热服,能缓解疼痛,具有治本的作用。喉为肺系,咽喉是肺胃门户。肺胃虚寒,脾阳弱者,更易内外合邪而发病。风寒之邪直中,凝滞咽喉部的经络,经气运行失畅,故不通则痛。此类患者,自有风寒之征。常表现微热不扬,恶风畏寒,偏正头痛,眼腔痛,鼻塞、流清涕,舌苔淡白,脉浮紧或浮缓之类。思热饮,服后喉痛稍舒,继则喉痛如故。
期刊
随着我国城市化进程的推进,城市人口数量和交通需求快速增长,相对滞后的交通基础设施建设难以满足日益增长的交通需求,致使高峰期交通拥堵加剧、通勤时间增加。本文研究了早高峰异质通勤者出行行为、瓶颈拥挤收费及收费再分配问题,以期探寻缓解城市交通拥堵的有效策略。首先,构建了考虑用户异质性的多方式瓶颈系统均衡模型。该模型考虑了不同时间价值用户的交通方式选择(私家车和地铁)、出发时间选择及地铁车内乘客拥挤效应。
学位
目的:基于网络药理学方法筛选重楼[Paris polyphylla var.yunnanensis(Franch.)Hand.-Mazz.]的主要活性成分,预测其治疗非小细胞肺癌(NSCLC)的作用靶点及信号通路,进一步探讨其治疗NSCLC的可能作用机制。方法:通过中药与化学成分数据库、瑞士生物信息研究所平台(SIB)及文献挖掘,检索并收集重楼的活性成分及其对应的靶标基因。利用GeneCards、
期刊
单行设施布局问题于1969年提出,被证明是NP难问题且被广泛研究。给定每个设施长度以及每两个设施之间流量,单行设施布局问题研究如何在一条直线上安排设施的位置,使得每两个设施之间距离与它们之间流量的加权和最小。基于单行设施布局问题的复杂度和国内外研究现状,本文提出了一个高效的混合进化算法来求解该问题。该混合进化算法可分为两个部分:Local Search搜索和进化算法。Local Search搜索部
学位
在互联网浪潮的席卷及新冠疫情的影响下,互联网医疗行业正以不可阻挡的速度迅猛发展,但互联网医疗行业的需求特征尚未有过较为深入的研究。本文在医药电商行业O2O即时物流模式的需求预测理论基础上建立了考虑不同形式的促销活动的医药电商机器学习预测模型(XGBoost-P)。此模型首先利用指数平滑模型对药品的常规销量进行平滑填充,后将不同促销变量同常规销量一起输入XGBoost机器学习模型,以对不同促销活动影
学位
期权是金融体系中一种最重要的金融衍生品之一,为广大投资者起到风险管理、风险规避的功能。几十年来,大量学者从事期权定价研究,因为对期权进行精确的定价是十分困难却又非常必要的。精确的期权定价一方面可以避免市场失衡,另一方面可以使投资者动态地监控市场。Black-Scholes模型和Heston模型是两个经典的期权定价模型,前者缺乏波动率的建模过程,后者参数估计较难。为提高这两个模型的预测性能,本文分别
学位
聚类是统计学中一种重要的无监督学习方法,常被应用到模式识别、结构分组、图像分割等场景。EM算法就是一种最大期望算法,可以对不完全数据求得极大似然估计。本文针对聚类分析和参数估计过程中初始化、聚类数目选择、迭代稳定性、收敛速度、噪声点识别等问题,研究了基于混合模型的聚类方法。本文工作内容如下:(1)基于模型聚类和Bayes原理,运用Gauss混合分布结合EM算法的模型GMM-EM,通过迭代计算参数的
学位
对于一个随机动力系统来说,可以通过研究其随时间演化的概率分布来研究系统的统计性质和状态规律。在之前的大多研究中人们往往是通过求解随机微分方程所对应的含有概率密度函数的Fokker-Planck方程进而对系统的运动路径规律进行描述,但这种方法对于难以求解Fokker-Planck方程的复杂动力系统以及带有延迟的随机时滞系统的概率分布研究具有局限性。本论文以能够直接从训练样本数据中逼近数据概率分布的基
学位