基于VIPS算法和模糊字典匹配的网页提取技术研究

来源 :信息网络安全 | 被引量 : 0次 | 上传用户:sunshinexpsister
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在目前数据爆发的互联网时代,论坛舆论走向对于社会的影响越来越大,对舆论进行监控引导已经不可避免,在数据如此巨大的环境中,有效地监控舆论信息成为一个难题.论坛网页中标题、内容等关键信息是舆论监控中的主要以及重点信息.为了提取论坛网页中的标题、内容、作者等与舆情相关的信息,文章提出了一种基于VIPS算法和智能模糊字典匹配相结合的网页内容提取方法.VIPS算法是利用Web页面的视觉提示背景颜色,字体的颜色和大小,边框、逻辑块和逻辑块之间的间距等,结合DOM树进行页面语义分块.智能模糊字典采用AC BM匹配算法把
其他文献
【正】 “整除”是数学中的一个术语,《现代汉语词典》释为:“用甲数除乙数所得的商是整数时叫做整除。”这里的“甲数”和“乙数”当然是指数学中的任何数了,诸如整数、分数
供给侧改革是当前我国经济改革发展的新路径,也为进一步加强和改进高校社会主义核心价值观教育提供了新理念和新思路。伴随时代发展,高校社会主核心价值观教育面临的外部环境
本文用TEM、SEM等手段研究了SiCw增强2Y-ZrO2复相陶瓷材料的组织,结果表明:SiCw的加入可以显著细化2Y-ZrO2材料的粒子,并使基体的断裂方式由以沿晶为主的混合型变为以穿晶为主的混合方式,晶须周围的m-ZrO2可显著缓解
目的:观察强化呼吸功能训练对高龄脑卒中吞咽障碍患者吞咽功能康复的效果。方法:采用随机数字表法将40例高龄脑卒中吞咽障碍患者随机分为治疗组和对照组,每组20例。两组均给
本世纪初,我国经济社会发展开始全面进入结构转换、机制转轨、利益调整和观念转变、由低收入国家向中等收入国家迈进的加速转型期.
美国传教士孟杰在清末创办了湖州福音医院,借助于西方先进的医学手段和医疗网络,孟杰和福音医院成功地融入湖州当地社会。在当地士绅和教会的帮助下,湖州福音医院成为浙北地
应用数据库管理系统FOXBASE设计了食品营养评价管理系统,根据膳食结构及膳食标准,采用营养成分建库存放及临时数据人机对话方式对各类食品(或食谱)进行营养评价。 FOXBASE application
纤锌矿结构的ZnO是一种新型的II-VI族氧化物半导体材料,禁带宽度为3.37 eV,具有高达60 meV的激子束缚能,低介电常数,环保价廉,良好的光电性能和压电特性,因此ZnO广泛应用于光电器件方面,具有潜在的研究价值。本文采用基于密度泛函理论的第一性原理平面波超软赝势法,研究了本征ZnO体系,Mg、Cd单掺杂与共掺杂ZnO体系,Mg和不同浓度的Cd共掺杂ZnO体系,Cu、Cd单掺杂与共掺杂Zn
以美国引进的西部沙樱等4种灌木为研究对象,分别对其根、茎、叶、花、果实、种子等形态进行了观察分析,结果表明:4种灌木性状各异,均能适应当地的自然条件,通过与同属品种比较,从形
【正】 列夫·托尔斯泰是十九世纪世界文学的泰斗,生前与东方,特别与中国的关系是很密切的。他对中国的古典哲学,特别对老子的《道德经》有专门的研究,对受帝国主义侵略