基于标题与文本相似度的网页正文提取算法

来源 :科技创新与应用 | 被引量 : 0次 | 上传用户:pantherzzx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
主题型网页标题是网页正文内容的高度概括,利于标题与正文相似性之间的关系,提出了基于标题与文本相似度的网页正文提取算法。该算法首先把网页解析成DOM树,再生成STU-DOM,接着对STU-DOM进行粗剪枝。对剪枝后的语义树通过Shingle算法对网页标题与节点文本进行切分,生成标题和节点文本词汇单元集合,利用改进后的Dice系数计算标题与文本的相似性实现网页正文提取。实验结果表明,该抽取方法准确率达到90%以上,具有可观的实用价值。
其他文献
核电站钢制安全壳套筒组件是重要的承压部件,主要有套筒和插入板组成,大尺寸套筒组件的制造难点在于插入板的分片成形方式确定、插入板分片拼焊时尺寸精度控制、插入板与套筒
课堂教学的历史性变革和时代演进,使教师从课程、教材的被动执行者的角色和传达“教参”一类所规定的权势话语的锁链中解放出来,开始有了现代意义上对“自爱”“自尊”“自我实
采用正交试验设计方法,对宝庆辣椒酱传统生产工艺的发酵和调配技术的工艺参数进行了优化。结果表明:乳酸菌强化发酵生产辣椒原酱的最佳条件为食盐量10%、接种量3%、发酵温度35℃
常说新官上任“三把火”。新校长刚刚上任.如果只是一味盲目地“烧火”.并不利于学校的发展。笔者以为,水火相生相克,为了把学校的发展势头烧旺。新校长还应该思考如何用好三盆水
期刊
刘庆生老师辗转来信,很委婉地拒绝了采访,理由是不善言辞。“不善言辞”,既是一种面具,也是一种曲折的描述……
自进入二十一世纪以来,我国的发展日新月异,随着高新科技的迅猛发展以及经济体制的不断更新,各行各业都发生了翻天覆地的变化,食品包装机械设计领域的改革尤为明显,结合现代
文章结合实际超声波检测过程,介绍了焊缝中的各个类型缺陷在超声波检测中的波形特点,以及实际检测中的一些实用方法。
公路项目是国家的重点项目, 它们的存在为国家的经济发展做出了显著的贡献, 各个行业和领域的发展离不开它, 同时广大群众的日常生活的开展也与公路有着非常密切的关系.最近
随着现代网络通信技术的飞速发展,通信运行系统也得到了较大的进步。相对而言,移动通信光缆线路作为目前比较重要的一种线路,其在很多方面都影响着通信事业的发展。在我国的
敦格铁路(青海段)临时开通后CTC(调度集中系统)及CSM(铁路信号微机监测系统)无计轴信息(指计轴轴数、报警信息、本站和邻站的工作状态信息),若能在CTC维护终端及CSM终端上查看计轴信