基于统计的多文本网站文本内容抽取算法 - 论文文献免费下载 - 搜论网

基于统计的多文本网站文本内容抽取算法

来源 :安徽电子信息职业技术学院学报 | 被引量 : 0次 | 上传用户：liqund7h

【摘要】

：

随着互联网的普及,网络数据的增长速度也呈现出井喷的态势。通过搜索引擎获取网络信息,已成为人们获取信息的主要途径,因此,搜索引擎的搜索精度,就成了亟待研究的问题。本文首先研究了文本摘要领域国内外的研究现状,分析了目前该领域的研究成果,对各种算法进行了综合分析,然后针对科研网站这类多文本内容的网站,提出了一种基于统计的网站文本信息的抽取算法。该算法利用宽度优先搜索策略爬虫,获取网站的HTML源码,对源码的结构进行分析,将其解析成DOM树,最后再利用基于统计的方法将网站的文本信息抽取出来。通过验证,该算法可以较

【作者】

：

【机构】

：

徐州开放大学

【出处】

：

安徽电子信息职业技术学院学报

【发表日期】

：

2021年4期

【关键词】

：

自动文本摘要网页文本抽取宽度优先搜索 DOM树 ROUGE评价

【基金项目】

：

2019年度江苏开放大学(江苏城市职业学院)“十三五”科研规划课题“基于SPOC的高职混合教学模式探讨”(19TXZC-10)。

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网的普及,网络数据的增长速度也呈现出井喷的态势。通过搜索引擎获取网络信息,已成为人们获取信息的主要途径,因此,搜索引擎的搜索精度,就成了亟待研究的问题。本文首先研究了文本摘要领域国内外的研究现状,分析了目前该领域的研究成果,对各种算法进行了综合分析,然后针对科研网站这类多文本内容的网站,提出了一种基于统计的网站文本信息的抽取算法。该算法利用宽度优先搜索策略爬虫,获取网站的HTML源码,对源码的结构进行分析,将其解析成DOM树,最后再利用基于统计的方法将网站的文本信息抽取出来。通过验证,该算法可以较

其他文献

基于大数据背景下的企业管理创新研究

习近平总书记提出：“创新是引领发展的第一动力，是建设现代化经济体系的战略支撑。”目前，社会已经进入大数据时代，在激烈的市场竞争中，企业要想获得生命力，必须不断创新管理模式，紧

期刊

大数据企业管理创新

浅谈工厂道路维修养护工程中的造价管理与解决措施

针对目前工厂道路维修养护中的一些特点难点做了分析，制定了解决措施，提高道路维修养护工程的造价管理水平

期刊

维修养护造价管理措施

试论提高建筑施工单位财务管理水平的策略

建筑施工单位财务管理工作是一项尤为重要的工作，关系到单位资金的分配与运用，影响着各项资源的合理配置，也影响着单位的长远发展，但因为受到多种原因的影响，当前我国很多建筑施工

期刊

建筑施工单位财务管理问题解决措施

供给侧结构性改革背景下高职跨境电商人才培养路径研究

随着我国经济改革从需求端转向供给端，作为人才的供给端，高职院校怎样跟随国家供给侧结构性改革额变化，培养适应社会和国家需要人才，适应我国经济改革发展的高职人才成为了一项重

期刊

供给侧改革高职跨境电商培养路径

合理设置招标文件关键条款提高招标成功率

招标文件是项目实施的工作依据，是潜在投标人编写投标文件的基础，招标文件编写的质量和深度直接影响到整个招标工作的效率。本文针对招标文件中关键条款设置，提出了一些改进措

期刊

招标文件资格条件业绩评标办法

大数据背景下的国有企业管理及创新

在大数据时代到来的过程中，企业的管理模式也将面临优化变革的机遇和挑战，期间国有企业决策者更加需要借助信息资源发掘深层次的市场发展前景信息，进而为提升国有企业的核心竞争

期刊

大数据国有企业管理创新

定额标准体系的构建与应用分析

成本费用定额管理标准是标准成本管理理念在实践中的具体应用。烟草行业自 2011 年开始推行预算定额管理以来，形成了与企业生产经营管理相适应的成本费用定额管理体系，在控制企

期刊

定额标准管理预算

企业的和谐劳动关系建设研究

人力资源是推动企业发展的核心动力之一，而和谐劳动关系的创建是滋养和激发员工工作热情、拼搏进取精神和团队协作精神的源头活水。现如今，越来越多的企业已经意识到构建和谐劳

期刊

企业经济管理人力资源管理和谐劳动关系

中小企业项目管理的财务管控分析

市场经济的规范化发展使企业间的竞争日益激烈，为提升企业核心竞争力，实现可持续发展，企业着重挖掘内部潜力，在项目管理的方式上由粗放型转向精细化，由追求项目数量的增加转向提高

期刊

中小企业项目管理财务管控

螺杆式空压机动力站节能措施关键技术研究

本文通过螺杆空压机和空气动力站结构的工作原理研究,分析空气动力站能耗过大的原因,根据几种不同的节能方案,总结出螺杆式空压机节能措施关键技术,并根据实际情况进行具体实施,得到了显著的节能效果。

期刊

螺杆式空压机集中供气动力站节能

与本文相关的学术论文