基于正文相关度的维吾尔网页正文提取

来源 :计算机工程 | 被引量 : 0次 | 上传用户：zqfr3

【摘要】

：

网页表达的主要信息通常隐藏在大量无关的结构与文字中，使正文信息不能被迅速获取，影响文本检测的效率。为此，根据维吾尔网页的非规范化编码、论坛型网页较多等特点，提出一种基于

【作者】

：

王瑞周喜李晓

【机构】

：

中国科学院新疆理化技术研究所,中国科学院研究生院

【出处】

：

计算机工程

【发表日期】

：

2012年21期

【关键词】

：

【基金项目】

：

新疆维吾尔自治区高技术研究发展基金资助项目（201012112）,新疆维吾尔自治区电子发展专项基金资助项目（XJDZZXZJ20109）

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

网页表达的主要信息通常隐藏在大量无关的结构与文字中，使正文信息不能被迅速获取，影响文本检测的效率。为此，根据维吾尔网页的非规范化编码、论坛型网页较多等特点，提出一种基于正文相关度的正文提取算法，并建立上下文正文密度和节点间正文比例等数学模型对算法进行改进。对大量维吾尔网页的实验结果表明，该算法具有较好的正文提取正确率和召回率，能够有效地从维吾尔网页中提取到所需的正文信息。

其他文献

信息化条件下图书馆角色定位发展

图书馆的定位、功能、发展问题是图书馆研究中的核心问题。公共服务体系的提出赋予图书馆机遇和挑战，图书馆应该在充分了解国内外研究现状的基础上，引入生态学理论分析图书馆发

期刊

图书馆信息化体制LibraryInformationS ystem

评《保险学新论》

加入WTO以来,我国保险业进入了一个蓬勃发展的新时期.面对新形势,要加快我国保险业的发展,必须进一步推进保险理论创新，回答和解决好保险业发展中遇到的新情况、新问题，通过从

期刊

《保险学新论》保险理论粱宝柱李丹书评

多媒体课件在物理演示实验中的运用

物理学是一门以观察和实验为基础的学科，实验是物理课的魅力所在，在物理教学中有着不可替代的重要地位。通过实验，不仅仅是提高了学生学习物理的兴趣，培养了他们的实践能力、分析

期刊

物理演示实验多媒体课件中学物理实验教学物理教学课堂演示实验学生学习实践能力分析能力

基于DOM树的视频元数据抽取系统

目前多数抽取方法主要针对主题信息块的提取，未深入到各单独信息块。为此，设计一种基于DOM树的视频元数据抽取系统。通过改进Heritrix的链接过滤功能和URL队列管理策略，结合网页

期刊

网络爬虫信息采集URL调度增量更新DOM树Web crawler information collection URL schedule increm

基于字典的保序字符串压缩改进方法

传统基于字典的保序字符串压缩方法对数据的压缩和解压时间较长。为此,对编码索引CS-Prefix-Tree进行改进,根据字符串出现的概率,设计一种新的解码索引,从而减少查找时间,提

期刊

字符串压缩共用叶子字典编码索引解码索引string compression shared leaves dictionary encoding ind

学生信息管理系统的设计

随着学校规模扩大，学生人数迅速增加，采用纸介质来管理学生信息的办法已经不能适应时代的发展，推行计算机信息管理系统来管理学生信息是大势所趋。

期刊

信息管理系统功能模块数据库Information management systemFunction moduleDatabase

磁卡机磁头与制造

介绍了磁卡机磁头的应用、工作原理、设计要点；指出了批量生产的“捷径”及磁头测试的主要参数．

期刊

磁卡机磁头测试

电气设计与空分设备

通过空分工艺各个子系统与电气设计的关系，将空分中超大容量电动机的起动方式和控制系统进行了详细分析，并应用现代先进的综合保护器与优良电气控制等技术，将电气设计合理体现在

期刊

空分子系统电动机起动方式综合保护器电气控制回路

河南科技大学经济与管理学院

河南科技大学是2002年3月经教育部批准，由原洛阳工学院、洛阳医学高等专科学校、洛阳农业高等专科学校等合并组建而成。

期刊

科技大学经济与管理学院河南高等专科学校2002年教育部工学院洛阳

21世纪购并浪潮动因分析

本文试图通过对新世纪又一轮的兼并浪潮的观察和阐述,对比历史上的五次购并浪潮,从经济学的角度,分析出这一轮新的购并的内在动因和外在趋势;最后,还从我国的现实国情出发,提

期刊

新经济企业购并成因中国对策

基于正文相关度的维吾尔网页正文提取

与本文相关的学术论文