中文网络评论中提取产品特征的PMI-Strapping算法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:ffgooo208w
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息科技的飞速进步,让人类社会步入了智能化变革的大数据时代。各种信息途径产生的海量数据蕴含了巨大的财富,也成为了我们巨大的负担。近年来,电子商务出现井喷式的发展,移动终端的逐渐普及,用户参与互联网的激情越来越高,这些都成为大数据的重要推动力。商家在享受互联网带来的巨大利益的同时,也需要面对日益激烈的竞争。如何利用大数据寻找深入理解用户的途径,给用户提供更加个性化优质的产品和服务,成为赢得这场激烈竞争的关键。而网络上积累的海量评论文本正蕴含了用户最真实的情感与体验,体现了其深层次的偏好习惯,也更容易以口碑的形式对他人的购买决策产生影响。对于网络评论挖掘的研究起步于21世纪初,产品特征提取是其中一个重点,旨在发现用户在评论中关注产品或服务(服务也可以看成产品)的哪些细节。但是现有的研究仍然无法彻底解决机器理解语义困难、噪音大、方法可移植性差等诸多难点。而中文由于语言本身的复杂性更高,中文网络评论提取产品特征的研究面临着更艰巨的挑战。本文在前人的研究成果的基础上加以创新改进,针对中文网络评论的特点,实现产品特征的有效提取,并将算法在情感分析中加以推广。本文首先介绍了网络评论挖掘的背景,梳理了相关的研究与理论基础。在产品特征提取的模型中,将语言学的理论加以运用,在经过分词和词性标注之后,使用三项语言规则进行初步的筛选,得到更合适的候选特征集。针对原有PMI算法的缺陷加以改进,提出了一种PMI-Strapping算法:由一个简单的种子出发,逐步迭代优化,结合动态阈值设置,实现对候选特征集的进一步提取。同时,使用语料切割法和人工监督法,来对算法的阈值设置进行改进,以适应不同的挖掘目标。将整个产品特征提取模型应用于实际的网络评论数据集,展示出了优于传统PMI算法的表现。其次,本文总结了PMI-Strapping特征提取算法的重要思想,将其推广到情感分析中,并构建了相应的算法,以解决当前的感情分析研究中存在的两点不足,即情感分析脱离产品特征、情感分析模型简单线性化。最后,本文对全文内容进行了总结,对后续研究做了展望。
其他文献
增塑剂是工业上被广泛使用的高分子材料助剂,在塑料加工中添加塑化剂,可以使塑料柔韧性增强,易于加工。但其不属于食品香料原料,长期食用可能引起生殖系统异常、甚至有造成畸
退耕地人工群落植冠层的截留能力,是群落生态效益的重要组成部分,这一研究不仅可以掌握退耕还林还草工程作用的机理,还可以更好地指导工程实践,促进工程建设步伐。通过"简易
对《伤寒杂病论》通调津液的治疗方法,进行了系统的整理和总结。并将其归纳为:开表发汗,宣泄津液,宣发郁阳,散达津液;散寒化饮,顺布津液;实卫行水,舒展津液;利尿渗湿,通泄津
在小学教育教学工作中,思想道德教育是重中之重。小学生的思想品德直接关系到学生将来人生观和价值观的正确树立。良好的思想道德能够为他们将来更好地成为有理想、有道德、
目的:评价子午流注针法配合穴位贴敷治疗腹泻型型肠易激综合征的疗效。方法:将120例腹泻型型肠易激综合征患者随机分为子午流注针法配合穴位贴敷组(观察组)和西药组(对照组),
中华精神随着中华民族的进步不断成长、发展乃至转变。其发展可以分为三个阶段,即从古代到近代的历史传统精神,五四以来的革命传统精神和改革开放以来的新时期精神。中华精神本
建立一种新的、同时测定杜康不同级别白酒基酒中11种典型风味物质含量的气相色谱外标法,采用AT.LZP-930型色谱柱(25 m×0.32 mm,0.1μm),氢火焰离子检测器检测,进样口温度220
全面育人,为了每一名学生的发展是新时期学校教育的目标。小学音乐学科作为小学课程的重要组成部分,在教授学生音乐知识和技能技巧的同时,也承担着德育教育的重要使命,其中利
目的:通过建立大鼠及鸡高尿酸血症动物模型,观察吴茱萸碱的降血尿酸作用。方法:⑴将大鼠灌胃次黄嘌呤(100 mg/kg),再皮下注射氧嗪酸钾盐(20 mg/kg)致尿酸增高模型,观察吴茱萸
目的:观察电针对DSS诱导的UC模型小鼠的治疗效应及免疫因子IL-6、TGF-β的影响,初步探索电针治疗UC小鼠的免疫机制,为临床针灸治疗UC提供实验依据。方法:将38只昆明小鼠随机