论文部分内容阅读
近年来,伴随着移动网络技术的蓬勃发展,网络应用己融入社会方方面面,对人们衣食住行产生着重要影响。网络改变了人们的生存环境和思考方式,同时对传统的新闻事件扩散理念、散播方式带来了深刻变革。互联网使用者作为消息发出的中心,具有更多人与人之间数据传递的方式。同时网络舆论作用逐渐的提升,舆论情报分析成为课题钻研的热门。微博、博客、论坛以及新闻门户等网络应用,承载着大量网络新闻信息,作为消息或者资讯的流转工具,用户可以利用其方便地将新闻消息传送到互联网上,随着加入评论辩论的网民数量增加,新闻消息逐步演变成为社会热点事件。面对热点事件,社会各阶层都有发表自己观点的需求,网络用户需要一个针对热点事件发表观点的平台。但现有的互联网工具均存在一定的局限性,从平台架构上看,微博等互联网工具在新数据到达服务器时并不能及时推送给用户,数据必须通过用户重新加载从服务器拉取,消息送达存在一定时延;从信息内容上看,这些工具在内容质量上并没有做过多的处理,都在一定程度上包含无用或者垃圾信息。本论文针对社会热点事件,设计了线上辩论平台,并依据平台的需求方案,实现了平台功能,同时对辩论文本进行质量分析。本论文的主要工作如下:第一,对热点事件线上辩论平台进行需求分析,设计合理的实现方案。针对热点事件线上辩论文本实时性的需求,设计辩论文本服务器广播策略,避免平台用户频繁刷新获取最新数据,在保证数据实时性前提下降低服务器负载。在权限功能的实现上,采用Shiro工具,实现用户精细化权限控制。采用消息队列机制和缓存机制优化服务器响应速度,降低平台访问时延。同时,注意日志信息和辩论文本数据存储,为平台分析提供数据支撑。线上运行结果表明平台框架搭建合理,数据存储高效,平台具备优良的性能。第二,对平台的辩论文本进行质量分析。采用高效数据结构与状态机实现快速敏感字段识别算法,通过识别算法实现文本敏感字过滤。对算法处理速度进行优化,在保证敏感字识别功能的前提下,降低用户等待时延,同时对敏感字段词典更新具有很好的兼容性。对辩论文本信息进行分析,利用文本信息挖掘技术实现辩论文本内容分辨。利用文本特征提取算法,训练辩论文本分类模型,完成高准确率的不良信息识别。依据用户打分反馈信息、辩论文本累计阅读时间以及辩论文本支持率,设计文本得分算法,实现优质辩论文本排序,提升平台的吸引力,提高用户阅读质量。本论文所设计系统已上线运行。