论文部分内容阅读
网络评论指的是线上平台中对某个(类)实体或非实体的主观性描述。如今,网络评论的热点发现已成为人工智能领域在文本评论价值挖掘方向上的一个重要应用。伴随着网络评论数据规模近年来的指数型增长趋势,其接收对象在对其描述内容进行认知层面加工时往往显得捉襟见肘。评论热点发现算法的设计在整个研究过程中起到了举足轻重的作用,在满足传统算法所具备的准确率基础上,更需要满足大规模数据时代新的应用背景所提出的更高可扩展性的要求。本文对网络评论的热点发现算法进行了相关技术的研究,其主要任务是从大规模网络评论中快速准确地发现对评论接受主体具有价值的热点信息,具体所做工作如下:首先,针对当前网络评论噪音多、内容杂及主体非结构化等特点,尝试将网络舆情控制中的热点发现思想引入到评论挖掘中来,提出了一种基于聚类的方面级评论挖掘算法(DM-CK)。算法将局部密度、最大最小距离算法、Canopy预聚类与K-means聚类算法巧妙地进行了融合,利用局部密度,最大最小距离算法对网络评论过滤筛选,并为Canopy与K-means聚类算法计算且优化阈值参数。最终,算法可以不通过人力设定热点的个数,并且可用以文本聚类的方式获取到评论数据最优的挖掘结果。实验表明,DM-CK算法可以有效地发现网络评论数据中的热点信息。其次,为了使算法具有处理海量评论数据的能力,将DM-CK算法在Hadoop平台上进行了并行算法的设计,提出了基于MapReduce的网络评论热点发现并行算法(MDM-CK)。该算法通过HDFS分布式文件存储系统实现了海量评论数据的分布式存储,使用Mapreduce计算框架对串行算法进行并行化设计并在Hadoop多节点的计算机集群环境下运行。最终,该算法在多个分布式任务节点并发执行下,实现了网络评论热点发现算法的并行化。实验表明,MDM-CK算法不仅可以实现网络评论数据的热点,还同时具备了处理海量数据的能力。最后,针对MDM-CK算法在MapReduce计算框架下需进行多次迭代的特点,使用Spark平台对MDM-CK算法进行了优化改写,提出了基于Spark的网络评论热点发现并行算法(SDM-CK)。该算法依托Saprk强大的高速内存计算框架进行优化,利用弹性分布数据集RDD在内存上高效读写的优势,进一步缩短了算法的执行时间。实验表明,SDM-CK算法在实现网络评论热点发现的同时对并行效率进行了进一步的提升。综合上述研究工作,可以将海量网络评论数据中的热点信息进行并行提取。通过分析这些热点信息可以有效地干预评论接受主体的决策并对评论对象提供相关指导,因此具有较高的研究价值。