评论挖掘中的语义信息抽取

来源 :复旦大学 | 被引量 : 0次 | 上传用户:ggg_0907
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
评论挖掘就是对评论文本的挖掘与分析,包括对文章主客观性的判断和评论褒贬义的判断以及句子层的评论文章基本要素的抽取,如抽取评论对象的名称,特征,评论词以及态度倾向等。评论挖掘是目前自然语言处理领域研究的热点,在商业产品用户反馈分析、政府舆情分析、垃圾邮件过滤、信息安全和自动文摘等领域都有广泛的应用。评论挖掘研究的涉及面很广,包括自然语言处理,机器学习,统计分析等等。本文在对评论挖掘任务,研究意义以及前人在这个领域的研究成果进行了概括介绍后结合实际评论挖掘系统研制着重对其中几项关键技术进行了深入的探讨与分析。本文的主要任务阐述了如何将无结构化的评论语句转化为结构化的评论信息记录,包括产品名称,产品特征,评论词以及情感倾向。本文分4步解决这一任务:1,识别评论对象和评论词,2,抽取评论词与评论对象的关系,3,扩充评论关系对为评论3元组,4,判断情感倾向。文中重点介绍了前面2个步骤,我们对评论对象和评论词的识别采用不同的策略,采用机器学习的方法识别评论对象,实验结果表明结合了分词特征的方法能够有效提高识别的准确率。对于评论关系抽取,我们所采用的方法是将同一句子中共现的评价词与评价对象作为候选集合,应用链式线性条件随机场模型并结合词,词性,语义和位置等特征进行关系抽取。我们所提出的方法一定程度上解决了指代消解以及评价对象遗漏的问题。实验结果表明该方法的F值比取最近评价对象的Baseline方法有了15%的提高,并且发现程度副词能够帮助提高主观性评论关系抽取的性能。最后,阐述了作者在评论挖掘研究过程中的心得体会,并对研究成果进行了总结,对该领域的发展前景进行了展望。
其他文献
随着Internet的迅速发展,尤其是World Wide Web的全球普及,Web网络上信息资源己经涵盖了社会生活的各个方面,网络信息过载(Information Overload)问题日益突出,这又促使Web挖
本体层是语义Web体系结构中的核心层,伴随着语义Web的研究热潮,对本体的理论和应用研究越来越引起学术界和工业界的重视。本体的获取和构建是本体相关研究中的一个基础性环节,而
无线传感器网络是由大量传感器节点以Ad Hoc方式构成的无线网络。密钥管理是无线传感器网络中极具挑战性的安全问题之一。在多数无线传感器网络密钥管理方案中,通常都是认为
无线Ad hoc网络以其布网灵活、易与迅速展开、系统整体抗毁能力强、不依靠预设的网络基础设施等特点可广泛应用于国防战备、抢险救灾、应对突发事件等无法得到有线网络支持或
现实生活中,企业的兼并,高校的重组,河流的汇聚,林区的连片,植物的嫁接,电网的交融等等均展示了同类对象融为整体的组合归并现象。如果从数据处理的角度考虑,并把企业、高校
当今互联网深刻地影响着人们生活的各个方面,网络在为工作和生活带来越来越多便利的同时,也引起了诸多安全和管理的问题。网络流量分类是网络管理的基础,也是检测网络恶意攻
伴随着计算机图形硬件技术不断地更新换代,各类主流三维游戏对于阴影渲染的实时性与可交互性提出了更高的要求。同时,随着大型复杂光照环境在游戏、电影及动面中的广泛应用,
词典普遍被作为一种含有大量语言学知识、常识知识的知识库。传统英语词典中一般包含词形、词性、词义、例句、习语、各种语法语用说明以及出处、领域等注解。从传统词典中提
现在,计算机软件系统逐渐变得越来越复杂,本身的开发难度更是在不断增加。传统的开发方法主要依靠手工方式,效率低下、质量欠佳、正确性难以保证。泛型程序设计(Generic Prog
随着电信服务市场竞争的日益激烈,各运营商意识到,单纯的“价格战”已经不能满足企业发展的需要,而不断深入的企业信息化则成为了各运营商提升自身竞争力的重要手段。电信企