微信公众号内容挖掘在企业信息服务中的研究应用

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:snailswuya
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网技术和智能手机的不断发展,每时每刻产生着大量的信息数据。微信作为一种最广泛的应用,拥有着数以亿计的用户,而微信公众号的数量近两年更是井喷式地增长,并且其中包含大量有价值的信息。面对如此海量的数据,如何对其进行有效的利用,使用户获取自身感兴趣的信息和知识是当下的研究热点。本文首先对微信公众号内容进行数据抓取,然后对所得的文本数据预处理、建立主题挖掘模型。使用LDA和HDP两种主题模型对公众号文本数据做了聚类分析,并且对这两种算法进行了研究和比较。最后设计并实现了面向企业用户的公众号信息推送平台。通过该平台用户可以获取自己感兴趣的公众号文章信息。本文具体工作主要包括以下几个方面:1.提出一种全新的微信公众号数据抓取方式,通过安卓模拟器、自动点击APP、数据包解析和存储这三部分实现公众号爬虫。实际测试表明该爬虫具有抓取效率高、实时性强、数据完整、稳定性高的特点,这也是本次研究的创新点之一。2.基于Jieba分词工具和潜在狄利克雷分配(Latent Dirichlet Allocation)(简称LDA)以及层次狄利克雷过程(Hierarchical Dirichlet Process)(简称HDP),对微信公众号的文本内容按主题进行数据挖掘并形成类别,然后从这些类别中提取出关键词形成标签。本文还对LDA与HDP模型参数变化对文本聚类结果的影响进行了研究和分析。通过实验数据对比了上述两种算法的准确率、召回率以及F1值。3.设计并实现了面向企业用户的微信公众号内容推送信息平台,该系统的主要功能为:(1)给用户提供企业标签列表进行选择;(2)信息平台会根据用户选择的标签,通过推荐算法给用户推送感兴趣的文章信息;(3)信息平台会提供给用户全面的公众号内容信息,包括文章、点赞阅读数、发布时间、公众号名称等信息。本文通过高效稳定的微信公众号数据抓取,准确的文本主题聚类,构建起面向企业的实时信息服务平台,相关内容已经在实验室实际系统中得到应用,具有一定的创新性和良好的应用前景。
其他文献
中国经济法学70年来服务中国社会主义革命和经济建设实践所开展的体制性法治探索,尤其是改革开放40年来服务中国特色社会主义市场经济改革发展所践行的自觉法治创新,其中所积
随着互联网技术的飞速发展,企业的数据中心越来越复杂,应用系统也在不断的增加,从而使其管理复杂度和管理成本不断的增加。企业需要借助云计算技术来完成底层资源和云主机系
以聚乙二醇(PEG)、4,4’-二苯基甲烷二异氰酸酯(MDI)、三羟甲基丙烷(TMP)为主要原料,分别采用1,4-丁二醇(BDO)、N-甲基二乙醇胺(MDEA)、2,2-二羟甲基丙酸(DMPA)为扩链剂,制备了3种聚氨酯
通过对国内三大文献数据库近15年来发表的城市新移民语言研究论文的综述探讨,找寻城市新移民语言发展变化规律,并从研究对象、研究内容和研究方法三个角度分析了新移民在迁入
<正>《中学英语教学大纲》指出"中学英语教学的目的,是对中学生进行听、说、读、写的基本训练,培养学生口头上、书面上初步运用英语的能力,侧重培养阅读能力。"阅读是理解和
<正> 从经济上说,1987年是印度尼西亚另一个极其困难的年份,尽管世界石油价格已从1986年7月的低点稍有恢复,但日益增大的债务本息偿还额却大大地抵销了国际收支的盈余额,不稳
嵌瓷作为潮汕建筑中三大装饰手法之一,在历史的沉淀下绽放出独具魅力的风采,并于2008年被评为国家非物质文化遗产。民国时期潮汕的嵌瓷主要有三个传承脉络,分别是以潮阳的吴丹成
<正>有机颜料具有色光鲜艳、着色强度高、色谱品种繁多、毒性低等优点,目前已广泛应用于涂料、印墨、塑料、橡胶中。然而,大多数有机颜料存在着耐光牢度低、耐热性及耐候性较
城乡一体化的战略实施让我国农村呈现出强劲的发展态势,但是由于我国目前农村金融市场资金供给不足,尤其是对于转变农村发展方式、改变城乡二元结构,农村资金供需不平衡达到
蒂姆·伯顿是好莱坞特立独行的导演,从影以来,他稳定而连续地推出了近30部影片,获奖颇多。蒂姆·伯顿的影片介于真人电影和动画之间,别具一格。这些影片是他个人经历、情感和趣味的缩影。论文主要考察的是蒂姆·伯顿动画电影中视觉形象的来源。论文认为蒂姆·伯顿动画电影的创意来源于他早期的视觉经验和视觉积累,而这些视觉经验是视觉文化的产物。这些视觉文化包括绘本和插画等图形图像,电影、电视和摄影等光学影像,童年的