多极性形容词的倾向性判别及其应用研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:ztdep
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网、WEB2.0和电子商务的发展,在微博、贴吧和网站的评论中出现了大量的人们对商品、服务、新闻等领域发表心得、体会和意见的评论信息。准确地分析出用户的评论信息所要表达的情感倾向性,是褒贬倾向性分析的任务。褒贬倾向性分析分为对篇章、句子和词语等多级的倾向性分析。其中词语级别的是最小的分类单位,同时也是最基本的分类单位,在这些词汇之中,多极性形容词占有相当一部分比重,是褒贬倾向性分析的一个密不可分的组成,但是目前关于多极性形容词的研究很少,本文以从句子中提取搭配词为方法,构成搭配词表,完善规则库和褒贬词表知识库,以提高正确率多极性形容词的分类技术目前主要有两大类,分别是基于统计的方法和基于词典规则的方法。基于统计的方法有最大熵、贝叶斯分类器、KNN、支持向量机、点互信息等数学统计模型,通过特征提取,再分类出多极性形容词的褒贬倾向性;而基于词表的方法主要是在知网HowNet、WordNet、《汉语褒贬词表》、《同义词词林》等基础上抽取特征词,再进行比较分类,以确定多极性形容词的褒贬倾向性。本文提出了基于搭配词表的多极性形容词倾向性判别方法并将其应用在情感分析系统中,通过对语料进行句法分析,提取褒贬搭配词,构建成搭配词表,再利用搭配词表以确定多极性形容词的褒贬倾向性,以判别出多极性形容词的褒贬倾向性,最后将提取出的多极性形容词的褒贬性标注加入到文本的倾向性分析中,最终得到文本的褒贬倾向性判别结果。以此方式,有效地解决了文本分类中关于多极性形容词的一个盲区,将多极性形容词加入到文本倾向性分析中,提高了分类质量。由于多极性形容词具有强烈的上下文相关性,因此需要提取特征词即搭配词来确定其褒贬倾向性,本文以酒店评价类、IT类和比赛评测的多领域语料为基础,采用句法分析的方式提取搭配词,再通过计算褒贬倾向性频率来将搭配词归类,最终实现对多极性形容词的准确分类。在实验中,本文以酒店评价类的单领域语料和竞赛的多领域语料为测试语料。经过实验显示,本文方法所标注的多极性形容词褒贬倾向性的准确率在单领域语料中达到了95.43%,在跨领域语料中达到了95.13%。同时本文将多极性形容词加入到了情感分析系统中,情感分析系统褒贬倾向性分析的准确率也由93.63%提高到了93.81%。
其他文献
随着互联网技术的飞速发展,文本文档、Web页面在互联网中快速扩充,如何帮助人们更快捷、有效地获取信息,已成为目前搜索引擎领域重要的研究课题之一。鉴于此,聚类搜索引擎应运而
随着因特网的飞速发展,半结构化式的Web数据大量涌现,使得HTML标记语言已经不能满足用户日益增长的需求,XML作为一种自描述的半结构化数据为Web数据管理提供了新的数据模型,
物联网的广泛应用推动了感知技术的发展,同时也促进了作为感知技术核心内容之一的无线传感器网络的研究和发展。随着需求的发展,无线多媒体传感器网络(Wireless Multimedia S
AUC是衡量分类算法性能的重要指标之一,被广泛应用于类不平衡学习、排序学习、异常检测和代价敏感学习等任务中。在线学习凭借其处理大规模数据和流数据的高效性在机器学习领
近年来,随着Internet技术的不断发展,让GIS跨入全新的Web时代,WebGIS的出现让GIS开始走向社会化和大众化。然而,在WebGIS蓬勃发展的同时,我们也看到它仍然面临着严峻的挑战。当前
现实生活和生产中普遍存在着随机因素,由于受到随机因素的影响,使得对问题的求解造成不便。目前对随机条件下的寻优问题,主要从期望值角度、机会测度角度及其他的角度出发,应
物流信息产业是波及范围最广的产业之一,通常由原料供应商、企业客户、生产商、批发商、零售商等多个组织结构所构成,从而形成一条供应链。供应链中的企业间是相互联系、相互
随着信息社会的快速发展,web数据已经发展成为一种巨大的信息资源。Web信息抽取作为一种从web数据中抽取主题信息的研究内容,是数据分类、自然语言处理等研究领域的基础。因
伴随着信息社会和定位技术的快速发展,基于位置的服务已经成为生活中不可缺少的一部分,并使人们生活变得更加便捷。与此同时,人们也将面临着轨迹隐私泄露的问题。由于人们对
信息技术的快速发展,互联网用户量和信息量规模的不断扩大,网络空间的信息生产者由传统媒体逐步趋向大众化和平台化。随着个人影响力的提升和人工智能的普及发展,人人都是信