中文意见挖掘的特征提取与极性分析研究

被引量 : 0次 | 上传用户:majian_hunu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着互联网技术的迅速发展,网上购物、博客、微博、BBS论坛等各种新兴的互联网应用正成为人们感兴趣的热点,而网上购物后的评论、博客、微博以及BBS上的意见信息也在与日俱增。这些评论和意见信息蕴含着丰富的价值,商家可以根据反馈信息改进生产质量和服务,提高效益,顾客可以根据评论选择合意的商品,而管理部门可以根据日常意见,提高管理效率。面对这些数量庞大的意见评论信息,如何高效,快捷地挖掘这些意见中的各种要素,并提炼成为有用的结构化信息成为当今意见挖掘技术研究的焦点。本文针对意见挖掘中的主题特征提取以及极性分析问题展开了以下工作的研究:(1)概述了意见挖掘的概念以及基本任务,在此基础上分析了意见挖掘的粒度与层次问题,并总结了它与相关技术之间的联系和区别。(2)针对已有的主题特征提取方法大多采用的是统计、句法分析或模板的方法,忽略了评论句的结构特点从而存在效果上的不足,提出了一种基于评论模式的主题特征提取方法(OFESP),将评论的句式结构用评论模式刻画,弥补传统方法的不足以及中文分词在词性划分上的多样性。实验结果表明该方法是有效的,与经典的特征提取方法相比,在总体评价指标上有一定的优势。(3)针对已有的中文词语极性分析方法采用语义相似度来代替极性相似度进行极性分析时,存在极性类别分类的不足和极性类别层次不明显等问题,分析研究了问题的根源,引入利用极性相似度进行词语的极性分析,提出了基于极性相似度度量的极性分析方法(POS),从而补充了语义相似度在极性分析上的不足。与基于语义相似度方法(SOC)相比,POS比SOC在分类准确率上有一定的优势,在极性层次类别的表现上有较大的优势。(4)将论文研究的工作集成到OURS小组开发的在线意见挖掘系统中,提供可视化的效果。
其他文献
对目前全国营造林综合核查抽样方法的特点进行了分析,提出可用一阶单元大小不等的两阶抽样或比估计方法计算各类核实率和合格率的抽样精度,并用实例对具体计算方法进行了说明,为
本研究的叙述主线是湖北省岳平县农村建国以来六十余年基层治理模式的变迁历程,探讨的核心理论问题是国家政权建设的社会基础问题,即村庄视域中国家政权建设的一般性规律问题
陈独秀是中国近现代史上一位特别重要而又非常复杂的历史人物。作为中国共产党早期领导人,特别是作为中国共产党“一大”到“五大”的总书记,在共产国际及其代表的督促和指导
高等院校是创新知识、培养高级专门人才的场所,承担着培养社会所需要人才的责任。在当下知识信息社会中,专业教育人才培养模式有着专业分化过细、知识结构单一的弊端,严重影
本文运用博弈论和信号传递相关知识,试图寻找一个符合我国实际且能说明企业是高质量的信息,构建了一个关于产业资本增持的模型并得出结论:一个上市公司的质量越高,在经济低迷
以大连市革镇堡南片区为例,通过对其发展条件进行分析与解读,讨论了城市更新面临的问题和解决问题的思路与方法,从规划目标、功能定位、规划手法等方面提出了改进措施和建议。
“吾华美术以制瓷为第一”,中国是世界上最早制造瓷器的国家,素有“瓷国”之誉,世界因瓷器艺术的精美而不断的认识和了解中国。英语中"China"众所周知是中国的代名词,而它也
自2006年5月《上市公司证券发行管理办法》颁布以来,定向增发的频率和募集规模越来越大,仅2010年,成功实现定向增发的公司就达151家,几乎每周有三家公司进行定向增发,就所募
兰花是一种古老的观赏性花卉,在中国很早就有种植的历史,经过漫长的演变发展,成为深受中国文人喜爱的幽雅花卉。自孔子、屈原以来,兰成为无数诗人骚客不断摹写的题材,久而久
随着移动通信业的迅猛发展,在移动运营商日常运行维护管理工作中,出现了各种新矛盾和新问题,而导致移动通信网络的可维护性越来越难控制。因此,利用现代管理学中的新的理论、