基于文本块密度与标签路径等特征的正文提取

来源 :广东工业大学学报 | 被引量 : 0次 | 上传用户:dlcad
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了解决网页中除正文信息外还包含网页导航、广告和免责声明等噪声信息的问题,本文提出一种基于标签路径等多特征和文本块密度的正文提取方法.首先根据文本块密度特征确定正文区域,然后在区域内使用标签路径等特征剔去噪音节点,最后抽取该文本块中的正文节点内容.该方法有效解决了网页正文块中噪声信息难以过滤和标签路径等特征易对正文部分外较长文本误抽取的问题,且无须训练和人工处理.从知名网站上随机选取新闻网页数据集进行实验,验证了该方法在不同数据源上都具有很好的适用性,抽取精确度优于CETR、CETD等方法.
其他文献
本文给出了河北省香河县的一次高空气垂直探测大气温度起伏的主要结果,由气球吊上端同一水平线上三个钨丝温度计算测量的温度起伏计算出不同水平和垂直距离的湍流结构常数,结果
研究视网膜中氧分布与脑红蛋白作用的数学模型,该模型包含了4组相互耦合的反应扩散方程组.先通过运用Banach不动点定理,抛物型方程的Lp估计证明了模型的局部解的存在唯一性,
在一个简单的两层板对称CISK模式中,我们考虑了热带气旋内部非对称积云对流的作用,并由此推导出了热带气旋移动的动力学速度公式。利用SPECTRUM-90这套热带气旋试验资料,本文着重分析了热带气旋
目的了解云南省德宏州外出务工人群的艾滋病病毒(HIV)感染状况及危险因素,为制订艾滋病防治策略提供依据。方法2010年以乡镇为单位,随机抽取返乡的外出务工人员进行问卷调查和HIV
本文利用IAP GCM20年的模式输出结果,计算了海平面气压、表面气温和降水的年际气候变率,并与观测资料作了对比分析,以考察模式模拟年际变率的能力。结果表明,模式成功地再现了观测变率地
采用一个三维混合模式对1992年8月30日至9月2日一次登陆北上台风暴雨过程进行了模拟。模式可以较准确地预报出与地面倒槽相一致的地面降水位置及降水量值。模拟的台风云系结构与卫星云
应用描写正压大气运动的基本方程组,分析了中尺度大气运动的物理特征,指出非平衡强迫运动是引起中尺度在气演变的根本原因,中尺度动力学方程组是中尺度动力学理论的研究的基础,因
本文利用射线跟踪法对冰晶粒子散射、吸收进行了研究。从理论上对一些常见的近似处理方法进行了讨论,计算了长为300μm,半径为30μm的六棱柱状冰晶粒子在不同波段的光散射相函数以及在
流行性感冒(简称流感)是由流感病毒引起的急性呼吸道传染病,每年约20%的成年人和5%的儿童患一次流感。由于流感病毒抗原变异复杂,迄今为止人们还不能有效地控制。世界卫生组织