Web论坛结构化数据抽取技术研究

被引量 : 0次 | 上传用户:liongliong420
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着国际互联网的日益普及和迅猛发展,论坛已成为网络上一个重要的数据源。它为人们提供了大量的关于各种题材的非常有价值的知识和信息。因此,近些年来越来越多的研究工作利用从论坛中抽取出来的信息建立各种网络应用。为了有效利用论坛数据,大部分应用首先从论坛网页中抽取结构化的数据,再进一步利用这些数据实现各种功能。论坛的结构化数据抽取是对论坛中帖子的标题、作者、发表时间和内容文本块等论坛元数据的抽取,它是处理论坛数据的基础。然而由于网页布局设计的复杂性和用户发表帖子的灵活性,从论坛网页中抽取结构化的数据是一项未能很好解决并非常具有挑战性的任务。这一问题已经成为有效利用论坛数据的一个主要障碍。本文研究论坛结构化数据抽取技术中的一些关键问题,主要贡献有以下几点:1.提出了一种基于实例学习的包装器生成算法从论坛中抽取结构化的数据。该方法可以从单个标注实例开始,通过将待抽取的网页与已标注的网页进行比较来完成抽取工作。只有当一个新的待抽取实例中的数据不能够被正确抽取时,系统再对其进行标注,因此算法无需初始的训练集合。对不同论坛站点中结构化数据的抽取实验结果表明,该方法是非常有效的。2.提出了一种基于自动模式发现的论坛数据记录抽取算法。该方法首先使用网页的HTML代码建立网页的标签树,然后通过比较标签树中结点的标签字符串挖掘网页中的数据区,并从数据区中识别数据记录。在论坛站点列表页和帖子页上的实验结果表明,该方法在抽取论坛数据记录方面明显优于经典方法。3.提出了一种基于产生式规则的论坛元数据抽取算法。该方法通过对论坛站点和论坛网页结构的分析,利用一组产生式规则从识别的数据记录中抽取论坛帖子的元数据。算法不依赖特定的模板,因此可以适应论坛模板的周期性变化,自动抽取结构化数据。实验结果表明该方法对论坛帖子的标题、作者、发表时间和内容文本块等元数据的抽取达到了较高的准确率。
其他文献
<正> 目前第一区调频声音广播使用第Ⅱ频段是实施过去三十年中不同时期达成的各种协议的结果.在1961年欧洲广播区域的斯德哥尔摩会议和1963年非洲广播区域的日内瓦会议上所商
基于我国机构投资者股利税收异质性,系统研究了机构投资者税收成本差异与现金股利收益偏好的相关性。研究发现,基金承担较高的股利税收成本,基金持股与股利收益率显著负相关,
放射治疗在头颈部肿瘤的治疗中占有极其重要的地位,但放射治疗亦可造成正常组织的损伤,尤以口腔粘膜反应为重,严重影响患者的生活质量[1].为探讨其有效的预防和护理措施,我科
本文的前半部分(1)用入声有没有分化这个条件把现代的官话方言区分为南北两系。(2)说明南北两系官话在两宋、金、元、明、清这一千年间的相互消长。(3)进而支持吕叔湘先生的
中国乳品市场具有巨大的发展潜力与上升空间,随之而来的便是乳品企业之间激烈的竞争。渠道作为经典营销理论中4Ps的一个要素,比其他三个要素更能为公司带来长期的竞争优势。
燃煤烟气中SO3酸雾难以脱除,对设备造成腐蚀,对环境造成污染,对人体也有很大的危害。为了避免SO3对WFGD后续设备的腐蚀,电厂普遍采用GGH提高烟气温度,这又造成设备投资过高且
企业流程再造(BPR, Business Process Reengineering),由美国著名管理大师迈克尔·哈默和詹姆斯·钱皮最先提出,1990年代BPR管理思想在全球盛行。它强调以客户为导向,以流程
当今高科技的时代,计算机作为20世纪的重大发明,已经广泛的运用于各个领域。进入艺术领域飞速发展的计算机图形数码处理技术,在美术的表现方式、手段以及新的艺术观念上产生
山东电视台公共频道是山东电视台新闻中心主办的频道,是目前山东省级电视媒体中唯一以新闻为定位的综合频道。山东电视台新闻中心是山东省内电视媒体中最重要、最权威、最具