【摘 要】
:
评价对象的识别旨在识别出评论中意见表达所针对的对象,属于情感分析研究中最基础的任务。目前,大多数研究主要集中于产品评论领域中评价对象的识别。传统的方法是通过评价词
论文部分内容阅读
评价对象的识别旨在识别出评论中意见表达所针对的对象,属于情感分析研究中最基础的任务。目前,大多数研究主要集中于产品评论领域中评价对象的识别。传统的方法是通过评价词和评价对象之间的依赖关系识别出评价对象。微博文本口语化色彩浓重、语言表达不规范及表达观点的句子经常省略评价词,因而传统的方法并不适用微博文本。本文通过深入分析微博文本的语言特征,挖掘句子间的内在关系,识别出微博中的评价对象。首先,本文提出了基于候选词聚类的评价对象识别方法。基于微博具有话题性的特点,本文采用词聚类方法对评价对象候选词进行聚类,以发现一个话题下微博用户经常评价讨论的数个方面;基于聚类结果及相似的句子通常围绕同一类对象发表观点的想法,对句子进行分类以发现相似的句子;结合句子间的相似性和句子中候选词间相似性,利用相似性迭代算法评估候选词成为评价对象的置信度,以帮助找到观点句中正确的评价对象。根据微博观点句中评价对象识别的实验结果表明,本文提出的基于候选词聚类的方法对比已有研究方法中最好的结果在精确和宽松评价方式上F值分别提高了7%和4%。其次,为了对微博中不带有观点信息的文本进行过滤,本文提出了基于有监督的微博观点句识别方法。分析微博文本中观点句和非观点句表达差异,基于已有研究成果中表现良好的特征并结合中文微博的语言特点,提取出评价词、一元词、词性、副词、动词以及语气词和语气标点符号作为特征,通过卡方检验法进行文本特征选取,确定最佳的特征维度和特征组合方式,利用SVM进行文本分类识别出观点句。结果表明,词性、评价词、副词、语气词和语气标点符号有助于在中文微博领域观点句的识别。最后,综合前两项工作,完整的构建了中文微博评价对象识别方法。根据本文提出的观点句识别方法对微博文本中非评论文本进行过滤,从识别出的观点句提取出评价对象。实验结果表明,该方法对比参与CMSAE中评价对象识别任务的十六支队伍中最好的实验结果在精确和宽松评价方式上F值分别提高了4%和3%。
其他文献
研究背景体外循环技术刚刚用于临床时,常规使用新鲜血液进行管路预充。血液预充有传染血源性疾病的危险、价格昂贵,而且血液预充容易造成体外循环过程中微循环瘀滞现象和酸中
番木瓜(Carica papoya L.)是我国重要的果树之一,在我国台湾、福建,广东、海南等区域都有大规模的种植,番木瓜环斑花叶病毒(papaya ringspot virus,PRSV)等病毒感染植株后,很难根除,而且它们在番木瓜的生长发育时期都会伴随着,且通过土壤、昆虫、人为因素等传染其他植株,从而对番木瓜的生长发育和果实品质等造成巨大的影响,导致一个番木瓜种植区域的番木瓜产业收成减少80%
近些年来交通拥堵状况日趋严重,造成不可估量的交通安全威胁、环境污染及严重的经济损失等问题,因此缓解拥堵问题刻不容缓。实时检测高速公路拥堵现象,便于交通部门进行监控,
NFC近场支付为用户带来了安全便捷的支付体验。传统的NFC卡模拟是基于硬件的虚拟卡模拟(Virtual Card Emulation),通过在手机中内置安全芯片(Secure Element,简称SE)为交易过
随着网络技术和多媒体技术的快速发展,各种形式的资源蓬勃增长。音乐资源因其独特的形式和作用备受科研者的青睐。高效地实现音乐资源的查找检索是十分必要的。本课题主要研
针对软件系统稳定性和鲁棒性的问题,本文基于软件网络中节点之间的调用关系,引入复杂网络的知识理论,从网络拓扑结构的角度,对复杂软件网络中识别影响力节点算法进行研究,并
随着在线社交媒体和电商的快速增长,诸如微博、朋友圈、以及商品评论等在线应用创造了大量的短文本,但如何高效地挖掘短文本中有价值的知识仍然是一项具有挑战性的工作。主题
伴随实时系统在安全关键领域的广泛应用,其复杂度也在不断增加,如何保证实时系统安全性,避免财产损失甚至人员伤亡等灾难性事故的发生,已成为当前软件工程领域的研究重点。目
辣椒因独特的辣味、高营养品质、丰富花色品种而风靡全球,其辣味主要成分是辣椒素类物质。辣椒素类物质广泛应用于食品、军工、医疗、植保等行业需求日益广泛,然而,像鬼椒、涮涮辣、海南黄灯笼椒等高辣椒素含量品种却因产地环境限制及辣味与果实大小一定的负相关关系,使难以通过引种、杂交育种等手段提高辣椒的辣椒素含量,因而辣椒素生物合成路径及调控研究成为基因工程方法提高辣椒素含量的研究热点。肉桂酰辅酶A还原酶(ci
随着移动互联网的快速发展,移动终端已成为人们在生活中不可或缺的一部分。另一方面,移动终端的智能化也造成了一定程度的安全隐患。近年来随着Android恶意应用数量的逐年增