网络评论热点发现并行算法研究

来源 :烟台大学 | 被引量 : 0次 | 上传用户:AFI123456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络评论指的是线上平台中对某个(类)实体或非实体的主观性描述。如今,网络评论的热点发现已成为人工智能领域在文本评论价值挖掘方向上的一个重要应用。伴随着网络评论数据规模近年来的指数型增长趋势,其接收对象在对其描述内容进行认知层面加工时往往显得捉襟见肘。评论热点发现算法的设计在整个研究过程中起到了举足轻重的作用,在满足传统算法所具备的准确率基础上,更需要满足大规模数据时代新的应用背景所提出的更高可扩展性的要求。本文对网络评论的热点发现算法进行了相关技术的研究,其主要任务是从大规模网络评论中快速准确地发现对评论接受主体具有价值的热点信息,具体所做工作如下:首先,针对当前网络评论噪音多、内容杂及主体非结构化等特点,尝试将网络舆情控制中的热点发现思想引入到评论挖掘中来,提出了一种基于聚类的方面级评论挖掘算法(DM-CK)。算法将局部密度、最大最小距离算法、Canopy预聚类与K-means聚类算法巧妙地进行了融合,利用局部密度,最大最小距离算法对网络评论过滤筛选,并为Canopy与K-means聚类算法计算且优化阈值参数。最终,算法可以不通过人力设定热点的个数,并且可用以文本聚类的方式获取到评论数据最优的挖掘结果。实验表明,DM-CK算法可以有效地发现网络评论数据中的热点信息。其次,为了使算法具有处理海量评论数据的能力,将DM-CK算法在Hadoop平台上进行了并行算法的设计,提出了基于MapReduce的网络评论热点发现并行算法(MDM-CK)。该算法通过HDFS分布式文件存储系统实现了海量评论数据的分布式存储,使用Mapreduce计算框架对串行算法进行并行化设计并在Hadoop多节点的计算机集群环境下运行。最终,该算法在多个分布式任务节点并发执行下,实现了网络评论热点发现算法的并行化。实验表明,MDM-CK算法不仅可以实现网络评论数据的热点,还同时具备了处理海量数据的能力。最后,针对MDM-CK算法在MapReduce计算框架下需进行多次迭代的特点,使用Spark平台对MDM-CK算法进行了优化改写,提出了基于Spark的网络评论热点发现并行算法(SDM-CK)。该算法依托Saprk强大的高速内存计算框架进行优化,利用弹性分布数据集RDD在内存上高效读写的优势,进一步缩短了算法的执行时间。实验表明,SDM-CK算法在实现网络评论热点发现的同时对并行效率进行了进一步的提升。综合上述研究工作,可以将海量网络评论数据中的热点信息进行并行提取。通过分析这些热点信息可以有效地干预评论接受主体的决策并对评论对象提供相关指导,因此具有较高的研究价值。
其他文献
闪烁星光泻人间忆荒煤同志陈播“情节是性格的历史”;写情节的演变,写曲折的冲突,写巧妙的结局,来吸引观众;要写剧本中的人的命运、人的复杂情感,以情感人,以情暗示主题以影响观众,感
硬质聚氯乙烯塑料管(UPVC管)以其重量轻、施工方便快捷、外表美观、造价低廉、不易堵塞、耐腐蚀等诸多优点而在国外早已大量应用,无论给水排水.大有将钢管、铸铁管取而代之之势。
目的观察射频深部热疗联合胸腔注射重组人白介素-2治疗肺癌癌性胸水的疗效。方法 68例肺癌合并癌性胸水患者随机分为观察组(n=34)和对照组(n=34)。观察组患者经中心静脉导管
如何识别和有效防范个人住房贷款风险.成为各商业银行都在研究和思考的现实课题。认真审视分析个人住房贷款的风险将会有效地降低和防范个人住房贷款风险的发生。下面简单分析
面对新形势、新任务,作为新时期的宣传思想工作者,我们要进一步明确方向,理清思路,深化认识。不断创新,增强紧迫感和使命感。在推进社会和谐普惠区建设的进程中切实发挥好政策宣传
为评价戊二醛、酚、含碘类等常用消毒剂消毒后对非洲猪瘟病毒荧光定量PCR检测结果的影响,基于畜禽栏舍、运载工具、器具消毒及皮肤黏膜消毒目的,按消毒剂说明书推荐选择不同
对电影市场中“直销”行为的思考李兴发直销,是个新名词儿,新到了连人们公认权威的汉语工具书《辞海》、《汉语大词典》和《经济大辞典》里都查不到。直销,又是个时髦词儿,时髦到
安全文化是企业文化的重要组成部分,建设安全文化必须要以企业文化建设为基础,结合企业自身的行业特点.用安全文化建设的实际效果.来推动企业文化建设向深层次发展。
开拓创新乘势而发迎接挑战再创辉煌就当前国产电影的发展态势答《当代电影》记者问[编者按]时值岁末,各行业、各单位都在进行年终总结,肯定一年来的工作成绩,找出经验教训,除旧迎新