基于正文相关度的维吾尔网页正文提取

来源 :计算机工程 | 被引量 : 0次 | 上传用户:zqfr3
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网页表达的主要信息通常隐藏在大量无关的结构与文字中,使正文信息不能被迅速获取,影响文本检测的效率。为此,根据维吾尔网页的非规范化编码、论坛型网页较多等特点,提出一种基于正文相关度的正文提取算法,并建立上下文正文密度和节点间正文比例等数学模型对算法进行改进。对大量维吾尔网页的实验结果表明,该算法具有较好的正文提取正确率和召回率,能够有效地从维吾尔网页中提取到所需的正文信息。
其他文献
图书馆的定位、功能、发展问题是图书馆研究中的核心问题。公共服务体系的提出赋予图书馆机遇和挑战,图书馆应该在充分了解国内外研究现状的基础上,引入生态学理论分析图书馆发
加入WTO以来,我国保险业进入了一个蓬勃发展的新时期.面对新形势,要加快我国保险业的发展,必须进一步推进保险理论创新,回答和解决好保险业发展中遇到的新情况、新问题,通过从
物理学是一门以观察和实验为基础的学科,实验是物理课的魅力所在,在物理教学中有着不可替代的重要地位。通过实验,不仅仅是提高了学生学习物理的兴趣,培养了他们的实践能力、分析
目前多数抽取方法主要针对主题信息块的提取,未深入到各单独信息块。为此,设计一种基于DOM树的视频元数据抽取系统。通过改进Heritrix的链接过滤功能和URL队列管理策略,结合网页
传统基于字典的保序字符串压缩方法对数据的压缩和解压时间较长。为此,对编码索引CS-Prefix-Tree进行改进,根据字符串出现的概率,设计一种新的解码索引,从而减少查找时间,提
随着学校规模扩大,学生人数迅速增加,采用纸介质来管理学生信息的办法已经不能适应时代的发展,推行计算机信息管理系统来管理学生信息是大势所趋。
介绍了磁卡机磁头的应用、工作原理、设计要点;指出了批量生产的“捷径”及磁头测试的主要参数.
通过空分工艺各个子系统与电气设计的关系,将空分中超大容量电动机的起动方式和控制系统进行了详细分析,并应用现代先进的综合保护器与优良电气控制等技术,将电气设计合理体现在
河南科技大学是2002年3月经教育部批准,由原洛阳工学院、洛阳医学高等专科学校、洛阳农业高等专科学校等合并组建而成。
本文试图通过对新世纪又一轮的兼并浪潮的观察和阐述,对比历史上的五次购并浪潮,从经济学的角度,分析出这一轮新的购并的内在动因和外在趋势;最后,还从我国的现实国情出发,提