【摘 要】
:
Web用户评论是许多重要应用的信息来源,比如公众舆情的检测与分析,Web用户评论必须从网页中准确地抽取出来.用户生成内容(user-generated content)不受页面模板的限制,这就给
【机 构】
:
中国科学技术信息研究所,北京大学计算机科学技术研究所,
论文部分内容阅读
Web用户评论是许多重要应用的信息来源,比如公众舆情的检测与分析,Web用户评论必须从网页中准确地抽取出来.用户生成内容(user-generated content)不受页面模板的限制,这就给Web数据抽取提出了新的挑战:首先,不同用户评论内容的不一致性严重影响了评论记录在DOM树和视觉上的相似性;其次,评论内容在DOM树中是一棵复杂的子树,而且彼此之间在DOM树中的结构相差巨大.为了解决这两个问题,提出了一种完整的解决方案,使用多种技术来实现对用户评论内容的抽取.抽取过程分为两个步骤,基于深度加权的树相似性算法评论记录首先从网页中抽取出来,然后通过比较DOM树中节点的一致性,将纯粹的用户评论内容从评论记录中抽取出来.在多个新闻网站和论坛网站上的实验结果表明,该方法可以达到较高的准确度和效率.
其他文献
以欧美为首的发达国家已经在政府公共信息资源的增值开发利用领域进行了许多尝试,并积累了一些理论与实践经验,为我国开展政府公共信息增值开发利用业务提供一些启发建议。
本文以2011年我国生物医药行业上市公司为研究对象,运用非参数检验和多元线性回归模型实证表明,处于不同生命周期的企业资本结构确实存在差异;且在不同的生命周期阶段,影响因
随着我国经济的快速发展,人们的生活方式和生活理念发生了巨大的变化,运动员思想教育工作是运动队的一项重要工作,做好运动员的思想教育工作是运动队管理工作中的重中之重。
<正>基于Docker的PaaS平台所体现出的敏捷性和灵活性已经得到了广大技术开发者的喜爱,并逐渐延伸到企业级应用当中。2015年,开源领域的技术明星—Docker,一时风光无限。从目
运用文献资料等方法对健身秧歌文化流变进行分析。结论:健身秧歌在我国文化长河的流变过程中,历经了从民俗体育文化到全民健身文化再到区域特色全民健身文化的三种基本文化形
高中整本书阅读教学应该有一个总体的规划和构想,也就是要有一个序列化的活动,高中三年的阅读活动应该由浅入深,选择古今中外的优秀作品,由小说、散文阅读到诗歌、古文阅读,
目的探讨经桡动脉途径行冠脉造影及介入治疗方法的临床应用价值和并发症,并与经股动脉途径行相似病变治疗作比较。方法对本院2006年1月—2009年4月行冠脉造影术或介入治疗的3
该文针对RoughSet理论中属性约简和值约简这两个重要问题进行了研究,提出了一种借助于可辨识矩阵(discernibilitymatrix)和数学逻辑运算得到最佳属性约简的新方法.同时,借助该矩阵
龙游县出口小黄瓜集团,是一家以县外贸公司为基础,以16家加工企业为附翼,实行生产、加工、销售一体化经营的省级龙头企业。集团自1991年组建以来,在县外贸总公司的领导下,充
中医面诊客观化是推动中医面诊发展的必经之路。本文对近年来中医面诊客观化研究的研究方法进行总结与分析,针对现有的研究探讨目前研究中存在的不足,提出了要采用多信息融合