基于标签样式和密度模型的网页正文自动抽取

来源 :情报科学 | 被引量 : 0次 | 上传用户:zhaodehu10000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
【目的/意义】为给数字出版知识服务系统提供高质量的文本语料以供知识抽取,本文提出了基于标签样式和密度模型来抽取网页正文的方法。【方法/过程】该方法先根据标签样式将网页文本进行分块,再根据各块文本内容的文本密度、标点密度、非超链接密度计算出综合密度,最后通过阈值判断抽取出网页中信息含量高的正文。【结果/结论】该方法简单高效无需人工编写规则或训练,能完整地抽取出网页正文。通过随机选取新闻网页进行实验,结果表明该方法能有效地自动抽取网页正文,适用于不同设计风格的网站,而且准确率和召回率优于基于统计的CEPR抽取方法。
其他文献
足球场上的帅气男生脱去上衣,露出健壮的肌肉,小麦色性感的肤色,引得女生一片尖叫。女性越来越青睐健康野性的古铜色肌肤,这种肤色对于女性来说可谓是杀伤力强大的一项武器,
目的:总结在妇产科手术前对患者的心理护理体会。方法:回顾性分析2010年7月~2012年7月在我院行妇产科手术患者1205例的病例资料(其中剖宫产手术1000例,子宫肌瘤切除手术205例)
<正>蛋鸡呼吸道综合征是一种常见疾病,该病在临床上非常典型,很容易确诊,但很难将其彻底根治,特别是近几年,呼吸道疾病的发生呈现复杂、失控、难以防治等特点,给养鸡业造成巨
公路等交通基础设施建设,通常被认为是工业化和经济增长的先决条件。公路建设属于资金密集型行业,如何筹集到足够的建设资金是公路建设的关键所在。随着国际市场的扩大,国际经济
氟被世界卫生组织(WHO)和美国国家科学院(UNAS, United National Academy of Sciences)确定为可能的必需微量元素和必需的营养素;氟和其他微量元素一样,摄入不足和过量均可对
<正> 模具的结造如下图所示。切断模主要用于电热镦用棒料的剪切下料,模具是采用了圆筒形剪切刀(4),使用前应仔细调整,否则不能保证剪切质量。调整模具主要注意两点:一是保证
<正>关于经济发展新常态,是党中央和新一届中央政府基于对科学规律和发展现实的深刻认识而提出的全新论断。中国经济呈现新常态,也即发展到了一个新阶段,新的发展趋势、新的
陈独秀、李大钊作为青年人的优秀导师,引导了近代思想解放的潮流,缔造了五四新文化运动。他们启迪青年寻求民族解放、提倡民主科学的青年思想,引领青年们走上救国救民的道路
办公自动化系统因其明显地推动企(事)业单位的信息化进程而备受重视,办公自动化软件的开发和利用能够最大限度地实现办公人员智力劳动的自动化、电子化、专业化,最大程度地减
聚合物分子量分布的在线控制问题,是目前化工生产中尚未圆满解决的一大难题,而建立聚合反应过程的数学模型是解决此类问题的前提和关键。为此,本文以一个工业化的醋酸乙烯聚合生