基于文本特征值的正文抽取方法

来源 :桂林电子科技大学学报 | 被引量 : 0次 | 上传用户:weijie1314
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对现有Web正文抽取方法适用性差、准确率低的问题,提出了一种基于文本特征值的正文抽取方法。该方法通过对Web页面的代码进行预处理,再解析转换成DOM树;通过遍历DOM树,以节点的文本长度和标点符号权重计算DOM树各节点的文本特征值,并通过标准差消除噪声;通过高斯函数为节点的文本特征值进行平滑处理,缓解节点文本特征值的突变,降低短文本节点丢失的可能。实验测试结果表明,该方法不依赖标签,也无需训练数据,具有较好的通用性和较高的正文抽取准确率。
其他文献
天津市武清区中医院党委书记兼院长陈宝贵是从一名年轻医师成长起来的教授、博士生导师、全国第三批名中医和享受国务院津贴专家.在他的带领下,该院被打造成一家远近闻名的中
期刊
通过比较《诗经》与《万叶集》里“葛”这一意象,发现中日两国歌人用“葛”(日文:クズ)入诗时,其描述内容常与家人亲情、婚恋有关;从文学意象与民俗意义上探究,婚恋诗中的采葛行为不
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
目的评价数字化乳腺断层成像摄影(DBT)与普通数字化乳腺X线成像(FFDM)对乳腺疾病的诊断价值.方法回顾性分析2013年1月-2017年12月在我院行乳腺钼靶检查病例164例,分别行DBT与
目的探讨血清免疫球蛋白E(IgE)、白三烯B4(LTB4)、血浆内源性硫化氢(H2S)、嗜酸性粒细胞计数(EOS)的变化与小儿哮喘病情的关系。方法选取我院2015年1月至2017年12月收治的90
当前医疗体制改革的形势下,医院必须打造核心竞争力,提供优质、满意的医疗服务,才能在竞争中立于不败之地,因此需要一大批绩效卓越的人才。能力素质模型是人才胜任工作、实现
随着我国装备制造业的快速发展,机械制造及其自动化技术也得到了长足的发展。从目前机械制造及自动化的整体水平来看,机械制造及自动化已经具备较强的加工能力,在机械制造技
近年来,央视前主持人崔永元以“反转基因斗士”的身份出现在大家视野之中,也拥有了不少忠实粉丝。但最近的一则消息,让崔永元陷入风口浪尖:近日,崔永元签名的璞谷塘商城已经悄然上
报纸
新时期信息化时代的不断深入,信息技术教学也变得越来越重要。小学信息技术教学对于学生未来的学习与发展十分重要,因此,教师在教学中要积极研究,不断创新教学模式,努力提高
为了应对全球能源危机和温室气体排放引起的全球气候迅速变化所带来的不利影响,世界上许多国家的科学家们都在致力于探索、开发和利用清洁的可再生能源。同时为了国家的粮食