论文部分内容阅读
随着互联网的普及和计算机技术的迅猛发展,Web已成为人们日常生活中获取知识、技术共享、信息交流的重要平台。越来越多的互联网用户在博客、论坛、社区等网站上以文本、图像、音乐、视频等形式发表用户体验内容和用户为中心的内容,形成数据日益庞大的社会媒体。如何快速有效地从社会媒体网页中获取人们真正需要的信息成为一个亟需解决的重要课题,因此Web信息抽取技术随之产生,并引起了学术界和商业领域越来越多的关注。与传统的信息资源相比,社会媒体网页中95%以上是非结构化或半结构化形式的数据型网页,缺乏严格规范的语法结构。由于社会媒体网页的海量性、开放性、多样性、动态性等特点,传统的自然语言处理技术和应用程序无法直接获取并利用社会媒体网页上的海量信息。从这些社会媒体网页中抽取相关信息(如产品信息、论坛帖子内容)并进行综合分析,能让我们广泛地了解当前用户的需求、产品的缺陷、社会的热点,具有重大的社会价值和经济价值。目前,社会媒体站点大多是利用数据库和预定义模板动态生成网页。网页中的不同区域分别表示菜单、导航、版权和内容等部分。这些不同功能的区域所用的HTML标记并无不同,但是,有些局部会反复出现。本文充分利用该类社会媒体网页的上述特点,从这些反复出现的局部归纳出稳定的模式,通过所获得的模式来自动抽取所涉及的信息。本论文以社会媒体网页为研究对象,主要针对Web信息抽取关键技术开展了深入系统的研究,提出了一种社会媒体网页内容分割与主题频繁簇的抽取方法。本论文的主要研究工作如下:1、利用k-means聚簇方法识别页面中具有类似结构的频繁块,得到一个频繁簇集合,2、从频繁簇集合中识别关于用户言论的主题频繁簇,3、根据主题频繁簇中频繁块的结构特征生成抽取规则。该算法的重要特点是利用相同来源的网页内容表达模式相同的特点来分割和生成抽取规则。实验结果表明该算法能有效地处理各种风格的社会媒体网页,达到应用水平的准确率和召回率。