面向网络评论信息的自动摘要技术研究与应用

来源 :北京邮电大学 | 被引量 : 4次 | 上传用户:cychenying2007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着智能互联网时代的到来,人们大量使用移动设备对购物、旅游等活动发表自己的看法和评论。这些评论的数目急速增长,很多网站的评论数目达到千万量级甚至更多。由于数量巨大,用户在浏览时非常费时,急需对大量评论做有效摘要以缓解阅读压力。不同于一般的文本摘要,在对评论进行摘要时,用户对评论对象的aspect以及相应的评价意见信息尤为关注,因此,需要特别进行这些信息的抽取和挖掘,并在此基础上开展评论的摘要。为此,本文在分析相关工作的基础上,从评论信息抽取和摘要两方面开展工作,其主要内容包括:提出了一种基于多关联自举的评论信息抽取算法。定义并量化了评论句中三种aspect词和意见词之间的关联关系,基于此构建了半监督自举算法。该算法首先从给定的评论语料中抽取一组候选aspect词和一组候选意见词作为初始种子集,依据定义的三种关联关系,循环提取与种子集合有强关联的词语。实验结果显示在手机评论语料集上的F-measure为78.8%,比基线DP模型高9.6%,表明算法能够较有效提取aspect词及其对应的意见词,且实验对比曲线表明算法对于种子集的规模要求较低,降低了标注成本。提出了一种基于潜在狄利克雷(LDA)的SentenceTagLDA模型。模型包含三个组件,分别建模词的主题、情感和词性分布,利用隐马尔可夫(HMM)状态转移模拟评论句中各属性词及其意见词的产生过程,在主题词的生成过程中融合词性及情感生成过程。在TripAdvisor数据集上的实验结果显示精确率比基准模型高1.3%,召回率提高28.07%,表明该模型在精确率、召回率等指标上均表现出了较好的性能,有益于建模评论信息的主题词及其情感分布。提出了一种基于层次注意力网络的摘要句子提取模型。该模型具有编码器-解码器结构,模型中引入了两层注意力机制,句子编码器利用注意力机制通过引入aspect词得到句子的向量化表示,评论文档编码器利用注意力机制实现前后句子的上下文关联,解码时,首先通过一个由LSTM网络构成的句子输出器对句子做出是否选用为摘要句候选的标记,用贪婪算法对标记结果做冗余剔除,再基于句子的重要性进行排序得到最终摘要。采用ROUGE方法评测实验,结果显示,本文模型在TripAdvisor数据集得到的ROUGE-2分值为7.95%,高于参考基准模型。通过加入两层注意力机制与否,对比验证各层的效果,在加入句子注意力机制时,ROUGE-2分值比无注意力机制高6.799%;在加入文档注意力机制时,ROUGE-2分值相比提高5.91%。实验结果表明注意力机制对于摘要句子提取有较好的效果,并通过可视化颜色标记方法,验证了排序对摘要效果的积极影响。设计并实现了一个在线评论的自动摘要原型系统。该系统综合应用了上述aspect提取、主题计算以及摘要句子选取等关键算法,以可视化的方式显示摘要结果。
其他文献
根据英语新课程的理念,教师在教学过程中要注意培养学生综合运用语言的能力。在新课程背景下,研究者旨在对高中英语课堂有效教学设计进行探究,找出培养学生语言运用能力的有
新课改理念下的教学实践更加注重学生在学习过程中的主体性,注重学生的自主、合作、探究式的学习体验。在初中数学教学实践中,利用小组合作学习的模式,能够有效地提高学生的
枇杷叶作为天然植物枇杷的叶子,富含黄酮类化合物。黄酮类化合物具有抗氧化、抗衰老等多种生物活性。该实验主要研究了不同辅助方法对枇杷叶中黄酮类化合物提取率的影响,通过
个人信息权是指自然人对其个人信息的排他控制权,在本质上属于人格权的范畴,但是存在一定的特殊性,与隐私权相比存在诸多差异。当前我国民法体系内还不存在个人信息权这一法
职务犯罪适用缓刑、免刑偏多,量刑普遍偏轻的问题,已经成为民众关切、诉求强烈的司法问题。据最高人民检察院公诉厅相关负责人介绍,2009年5月至2010年1月,最高人民检察院组织
该文对元搜索引擎进行了界定,阐述元搜索引擎的特征、分类及其运作原理,研究了元搜索引擎几项关键技术,并讨论了它的未来发展方向。
【目的】基于长期定位试验,探讨典型红壤水稻土不同施肥制度下不同形态土壤氮素迁移特征,为红壤水稻土氮肥合理施用提供理论依据。【方法】选取始于1981年的进贤红壤长期定位
现阶段,锅炉房煤改燃已成为节能减排大趋势,此文简要介绍了相关工艺系统及配套的安全设施设计,结合实践中的经验,提出了一些见解。
<正>全国人大代表程梦醒是一位90后,2014年返乡创业,成立湖北省应城市兴邦豆皮农民专业合作社并担任理事长,如今带动当地30多户农民。她的家乡在三合镇三结村,当地在清朝末期