面向Web舆情评价信息的采集与分析系统的研究与开发

来源 :苏州大学 | 被引量 : 5次 | 上传用户:shijun21
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年来,由于Web2.0等技术的高速发展及广泛的应用,越来越多的互动式新闻网站(如新浪新闻、头条等),互动式电子商务网站(如大众点评、汽车之家等),及互动式企业信用查询系统(如企查查等)不断涌现。这不仅给用户获取各类社会事件、企业信息和产品信息提供了便利,也使得人们有渠道可以在互联网上通过回复评论来各抒己见。通常,网络评论信息包含了互联网用户对某社会事件、企业或产品的看法和喜恶,是有关部门或公司了解社会舆情从而积极应对的重要依据。然而,在大数据时代,这些评论信息动辄以亿万记,且质量层次不齐、用语短小随意,这不仅对自动采集的要求较高,而且也加大了从中分析获取有效舆情的难度;另外,对多数据源中同一实体的评论数据进行融合,可以解决单数据源数据稀疏的问题,但是,由于数据缺失等原因,往往指向同一实体的记录会被认为是不同的实体,加大了评论数据整合的难度。针对以上问题,本文研究网络爬虫、数据融合和文本情感分析的相关技术和方法,并实现了面向Web舆情评价信息的采集与分析系统。相关网络爬虫技术可以较好地从互联网各类型网站中获取相关评价内容,并实现多数据源间的实体匹配,整合评论数据,从而做出细粒度的舆情分析。具体来说,本文的主要内容包括以下几个方面:(1)在数据采集方面:设计并实现了定制化的多线程网络爬虫框架,能够定向、快速、高效地收集相应的目标数据并存储至数据库,为之后的数据分析提供数据基础。(2)多数据源间进行实体匹配,从而整合评论数据,避免数据稀疏问题。(3)研究和分析了情感分析的相关技术与方法。设计了Web舆情评价信息分析框架,对网络评论进行细粒度情感分析来识别特征属性及评价语。(4)可视化展示。用户通过查询接口可以获取评论摘要信息及产品整体概况。
其他文献
某轻钢厂房因升级改造需进行检测鉴定与加固,检测到厂房存在多处施工偏差超出规范允许值,采用优化加固方法对钢柱、钢梁、吊车梁、屋面支撑和檩条进行加固,可供同类厂房加固
公共空间是人们交往的平台,它随着时间的推移而发生变化。近代英国的公共空间曾经出现了这样的转移:从啤酒馆过渡到咖啡馆,公共空间的性质因此也发生了改变。在这一转移过程
财务管理已渗透到企业各个领域之中,科学、合理的财务管理目标是确立企业经营发展目标的重要方面。本文通过对比利润最大化和股东财富最大化,指出股东财富最大化才是企业财务
船舶操纵性是船舶重要航行性能之一,随着现代船舶的高速化、智能化及航运重要性的提升,人们越来越重视船舶操纵性问题。滑行艇凭借其特殊的水动力性能在高速小艇领域占据了重
上海佳豪船舶工程设计有限公司为浙江省海运集团有限公司研发的5万吨级散货船,按共同规范(CSR)设计,同时满足MARPOL环保,舱室布置满足ILO要求。4月26日,船东组织专家在上海通过了方
对一船用中速柴油机进行了NOx排放试验,得出并分析了其用作船舶主机时,在持续运行区域内随运行工况变化的NOx排放特性.柴油机NOx排放水平与其运行工况密切相关.对于按推进特
天然气水合物被普遍认为将是21世纪最具潜力的接替煤炭、石油和天然气的新型洁净能源之一,同时也是目前尚未开发的储量巨大的一种新能源。广州海洋地质调查局从1999年起,在南
以6L80MC柴油机和DGS-8800电子调速器为对象,建立了柴油机传递函数模型和调速器模型,在此基础上,采用MINIS通用仿真支撑平台和Intouch工控组态软件,在全PC环境下,建立了柴油
在分析了液液混合机理的基础上,对几类常用的液液快速混合设备及其混合过程机理方面的研究进行了全面的综述。在结合大量专利所涉及的工业混合设备分析的基础上,总结了射流喷
高速船和游艇中使用不锈钢铸造航空和美人架(尾轴托架)的船很多,耐海水腐蚀的不锈钢在铸造时有特殊要求,为了提高成品率,提高铸件质量,需要贯彻一系列的工艺要求。文章系统地