网络信息流中热门访问主题挖掘技术研究

被引量 : 0次 | 上传用户:mater
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,网络舆情的重要性逐渐得以体现。社会上发生的热点事件几乎都能在互联网上有所反映。因此,研究网络舆情对于提高人民的生活水平,构建和谐社会具有重要意义。本文通过对网络舆情的定义、特点、来源和传播途径的研究,设计了网络舆情系统的原型。网络舆情系统运用了计算机网络、数据挖掘、自然语言处理等多领域学科知识,对网络数据流进行实时监测,收集网页,通过对主题的检测和追踪、突发事件分析、新闻趋势分析,最后生成统计报表和舆情信息预警。实现热门访问主题挖掘系统,需要结合自然语言处理的相关技术。本文根据网络信息流的特点,选择了合适的分词算法和句子相似度计算方法,并为算法进行了优化。数据流的特点是连续的、无限的、快速的和时变的。数据流频繁项挖掘算法需要利用有限的内存,以尽量少的次数扫描数据流就能得到频繁项。Lossy Counting算法是经典的数据流频繁项挖掘算法。本文使用了自然语言处理的相关方法对网页主题进行了预处理,使得Lossy Counting算法可以挖掘文本类型的数据流,并利用了Lossy Couning算法的摘要,实现了对一段时期热门访问主题的挖掘。本文根据以上理论,设计了网络信息流中热门访问主题挖掘系统,包括舆情信息采集模块、网页特征提取模块、分词模块、相似度计算模块和频繁项挖掘模块等。通过测试系统参数对系统功能和性能的影响,为系统参数的选择提供了依据。准确率和运行效率是衡量系统的重要标准。通过对系统的完整测试,证明了系统可以很好的对网络数据流中的热门访问主题进行挖掘,主题和主题之间的区分度很高,同时系统也可以在高速网络上运行。
其他文献
随着互联网在当今时代的飞速发展,我国网民人数也呈现出明显的上升趋势,网名则是这一现象不可避免的产物。语言与社会共变是语言学界不争的一种客观规律,社会发生的任何变化都会
本文着重研究功能理论在翻译批评中的应用。长期以来,翻译批评理论的研究及实践一直受到源文本和对等理论的束缚,严重阻碍了翻译的进一步发展。在功能理论提出之后,它完全颠覆了
"课内外互动"项目学习是小学生英语故事阅读训练的新模式。即通过教师课内导读与阅读分享,学生课后形成团队,共同探究、分享、自我阅读的行为。随着学生良好阅读习惯的养成及
文体学是一门运用现代语言学理论和研究方法研究文体的学科,其研究目的在于通过对具有文体意义的语言特征进行分析,揭示语言运用的表达效果和交际功能。博客是互联网的最新应用
概述了美国种业科技创新体系和农作物品种管理的基本情况,总结了美国种业科技创新与品种管理的主要特点,并就中美两国的现状进行了比较。在此基础上,提出了做好我国种业工作的五
中西方翻译传统都把翻译仅仅看作是从一种文字到另一种文字的纯语言转换,翻译批评家也以所谓的对原文的“忠实”作为评判翻译好坏的唯一标准。它们的共同点都是把原文作为翻
《我的前半生》之所以成为都市群体关注的焦点,其主要原因在于它展现了当代都市青年男女所面临的现实困境,借都市男女情感故事触及了现代社会发展进程中所出现的城市个体孤独
在翻译历史中,译者的地位一直被认为低于原作者和原文,译者的主体性在以文本为中心的传统翻译研究中没有得到应有的重视。二十世纪七十年代以来,随着翻译研究的文化转向,哲学研究
楚文獻是近年來研究古文字的新材料,是繼甲骨文、金文之後又一有特色的文字材料。楚簡的應用性文獻中保存和記錄了大量傳世文獻所未載的名物類詞彙。名物詞隨著社會的發展、新
内蒙古河套盆地位于我国西北部干旱一半干旱地区,是中国典型的地方性砷中毒病区之一,受威胁人口达30万之多。位于盆地西部的杭锦后旗,是内蒙古自治区最严重的砷中毒旗县,共涉