基于文本特征值的正文抽取方法

来源 :桂林电子科技大学学报 | 被引量 : 0次 | 上传用户：weijie1314

【摘要】

：

针对现有Web正文抽取方法适用性差、准确率低的问题，提出了一种基于文本特征值的正文抽取方法。该方法通过对Web页面的代码进行预处理，再解析转换成DOM树；通过遍历DOM树，以节点的

【作者】

：

孟川武小年

【机构】

：

桂林电子科技大学信息与通信学院,桂林电子科技大学广西可信软件重点实验室

【出处】

：

桂林电子科技大学学报

【发表日期】

：

2017年2期

【关键词】

：

正文抽取主题网页文本特征值高斯平滑

【基金项目】

：

广西自然科学基金(2015GXNSFGA139007);广西无线宽带通信与信号处理重点实验室基金(GXKL061510,GXKL0614110);广西可信软件重点实验室基金(KX201622);桂林电子科技大学研究生教育创新计划(YJCXS201524)

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

针对现有Web正文抽取方法适用性差、准确率低的问题，提出了一种基于文本特征值的正文抽取方法。该方法通过对Web页面的代码进行预处理，再解析转换成DOM树；通过遍历DOM树，以节点的文本长度和标点符号权重计算DOM树各节点的文本特征值，并通过标准差消除噪声；通过高斯函数为节点的文本特征值进行平滑处理，缓解节点文本特征值的突变，降低短文本节点丢失的可能。实验测试结果表明，该方法不依赖标签，也无需训练数据，具有较好的通用性和较高的正文抽取准确率。

其他文献

陈宝贵:打造名院有"高招"

天津市武清区中医院党委书记兼院长陈宝贵是从一名年轻医师成长起来的教授、博士生导师、全国第三批名中医和享受国务院津贴专家.在他的带领下,该院被打造成一家远近闻名的中

期刊

中日古代文学中的“葛”研究——基于《诗经》与《万叶集》比较探究视角

通过比较《诗经》与《万叶集》里“葛”这一意象，发现中日两国歌人用“葛”（日文：クズ）入诗时，其描述内容常与家人亲情、婚恋有关；从文学意象与民俗意义上探究，婚恋诗中的采葛行为不

期刊

中日古代文学《诗经》《万叶集》“葛诗”

适用烧结烟气的低温烟气循环流化床同时脱硫脱硝技术

回回产卜爹仇贱回——回日E回。”。回祖一回“。回干肉果幻中 N_。NH lP7-ewwe--一”＄ MN。W;- __._——————》砧叫]们羽制作:陈恬’＃陈川个美食 Back to yield

会议

低温烟气催化氧化循环流化床脱硫脱硝

数字化乳腺断层成像摄影与普通数字化乳腺X线成像在乳腺疾病诊断中的价值探讨

目的评价数字化乳腺断层成像摄影(DBT)与普通数字化乳腺X线成像(FFDM)对乳腺疾病的诊断价值.方法回顾性分析2013年1月-2017年12月在我院行乳腺钼靶检查病例164例,分别行DBT与

期刊

数字化乳腺断层成像普通数字化乳腺X线成像诊断价值对比分析

血清IgE、EOS、LTB-4、硫化氢水平变化与小儿哮喘患儿病情的关系

目的探讨血清免疫球蛋白E(IgE)、白三烯B4(LTB4)、血浆内源性硫化氢(H2S)、嗜酸性粒细胞计数(EOS)的变化与小儿哮喘病情的关系。方法选取我院2015年1月至2017年12月收治的90

期刊

免疫球蛋白E白三烯B4硫化氢嗜酸性粒细胞哮喘

基于能力素质模型的医院人才开发

当前医疗体制改革的形势下,医院必须打造核心竞争力,提供优质、满意的医疗服务,才能在竞争中立于不败之地,因此需要一大批绩效卓越的人才。能力素质模型是人才胜任工作、实现

期刊

能力素质模型人才医院

机械制造及自动化的现状及发展方向浅析

随着我国装备制造业的快速发展,机械制造及其自动化技术也得到了长足的发展。从目前机械制造及自动化的整体水平来看,机械制造及自动化已经具备较强的加工能力,在机械制造技

期刊

机械制造自动化现状发展方向

崔永元“网红带货之路”有点玄

近年来，央视前主持人崔永元以“反转基因斗士”的身份出现在大家视野之中，也拥有了不少忠实粉丝。但最近的一则消息，让崔永元陷入风口浪尖：近日，崔永元签名的璞谷塘商城已经悄然上

报纸

创新信息技术教学模式,提升小学生信息技术素养

新时期信息化时代的不断深入,信息技术教学也变得越来越重要。小学信息技术教学对于学生未来的学习与发展十分重要,因此,教师在教学中要积极研究,不断创新教学模式,努力提高

期刊

信息技术创新教学模式信息素养

甜高粱在生物能源产业发展中的前景

为了应对全球能源危机和温室气体排放引起的全球气候迅速变化所带来的不利影响,世界上许多国家的科学家们都在致力于探索、开发和利用清洁的可再生能源。同时为了国家的粮食

期刊

甜高粱生物乙醇温室气体

基于文本特征值的正文抽取方法

与本文相关的学术论文