社会媒体网页内容分割与主题频繁簇的抽取

来源 :湘潭大学 | 被引量 : 0次 | 上传用户:c1133186
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的普及和计算机技术的迅猛发展,Web已成为人们日常生活中获取知识、技术共享、信息交流的重要平台。越来越多的互联网用户在博客、论坛、社区等网站上以文本、图像、音乐、视频等形式发表用户体验内容和用户为中心的内容,形成数据日益庞大的社会媒体。如何快速有效地从社会媒体网页中获取人们真正需要的信息成为一个亟需解决的重要课题,因此Web信息抽取技术随之产生,并引起了学术界和商业领域越来越多的关注。与传统的信息资源相比,社会媒体网页中95%以上是非结构化或半结构化形式的数据型网页,缺乏严格规范的语法结构。由于社会媒体网页的海量性、开放性、多样性、动态性等特点,传统的自然语言处理技术和应用程序无法直接获取并利用社会媒体网页上的海量信息。从这些社会媒体网页中抽取相关信息(如产品信息、论坛帖子内容)并进行综合分析,能让我们广泛地了解当前用户的需求、产品的缺陷、社会的热点,具有重大的社会价值和经济价值。目前,社会媒体站点大多是利用数据库和预定义模板动态生成网页。网页中的不同区域分别表示菜单、导航、版权和内容等部分。这些不同功能的区域所用的HTML标记并无不同,但是,有些局部会反复出现。本文充分利用该类社会媒体网页的上述特点,从这些反复出现的局部归纳出稳定的模式,通过所获得的模式来自动抽取所涉及的信息。本论文以社会媒体网页为研究对象,主要针对Web信息抽取关键技术开展了深入系统的研究,提出了一种社会媒体网页内容分割与主题频繁簇的抽取方法。本论文的主要研究工作如下:1、利用k-means聚簇方法识别页面中具有类似结构的频繁块,得到一个频繁簇集合,2、从频繁簇集合中识别关于用户言论的主题频繁簇,3、根据主题频繁簇中频繁块的结构特征生成抽取规则。该算法的重要特点是利用相同来源的网页内容表达模式相同的特点来分割和生成抽取规则。实验结果表明该算法能有效地处理各种风格的社会媒体网页,达到应用水平的准确率和召回率。
其他文献
移动智能终端的普及促进了基于位置服务(LBS)的快速发展,LBS的广泛应用给人们日常生活提供了极大的便利,带来了广阔的市场和商机,但同时也存在着隐私泄露的风险,位置隐私的泄
非真实感绘制技术是当今计算机图形学研究的热点问题之一,它不像真实感图形学那样追求像照片一样的真实感,而是希望通过忽略图像中的一些不重要的细节,来突出图像要表达的信
无线传感器网络是由大量分布在特定区域的无线传感器节点组成的,这些节点能够协作地实时监测、感知和采集各种环境或监测对象的信息,并对其进行处理,传送到用户,具有无线通信、传
互联网已成为全世界范围内的信息传播和资源共享的平台,但随之而来的诸多问题也日益显现。如何保障信息的安全与个人的隐私是一个关键性的问题。匿名通信技术是一种保护信息
随着互联网、物联网、移动互联网的飞速发展,海量的数据信息产生了信息过载问题。尤其在大型电影推荐网站,如何通过一种有效的机制来帮助用户快速的获取到想要的电影信息,这
针对软件危机,基于构件的软件开发方法被提出来。在基于构件的软件开发过程中,构件库扮演了重要角色。实践中构件数量不断增长,如何实现构件库中对构件的有效的检索就成为构
近几年,随着经济社会的快速发展,城市化的进程的加速,居民收入水平稳步提高,对土地的需求量也相应增大,占用了大量的优质农用耕地,面对日益严峻的耕地的流失问题,必须制定切实有效的
在移动计算终端上进行三维图形计算是一个重要的课题,针对移动设备计算能力有限,存储空间不足,屏幕分辨率小,无线网络带宽受限等特点,研究如何进行移动三维图形的渐进显示具
2014年以来网络信息安全成为当今社会的热门话题。网络信息安全不仅包括网络信息的保密性、完整性和真实可靠性方面,还包括对网络中充斥着的大量垃圾信息的监管和预防。目前
无线传感器网络是当前国际上备受关注的、多学科交叉的热门研究领域,作为一种全新的信息获取、处理和传输技术,无线传感器网络的主要功能是协作的感知、采集和处理网络监测区域