半格式化网页信息提取与应用

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:yc253
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅速发展,快速准确获取信息成为制约各行业发展的瓶颈。互联网作为全球最大的信息资源宝库,受到了越来越来多地重视,通用搜索引擎应运而生。然而,通用搜索由于“信息过载”问题,会给用户带来大量无用信息,垂直搜索成为新的研究热点。 与通用搜索不同,垂直搜索引擎仅仅专注于某一领域。其对于网页信息的初步提取,一方面使搜索精度提高;另一方面使浏览者不用逐页阅读网页,提高了效率。本论文的主要内容是关于垂直搜索构建的相关技术,并重点探讨了英文网页关键词提取与产品网页的信息提取问题。 本论文开展的主要工作及创新如下: 1.提出一种基于词性颗粒度的英文网页关键词提取算法。该算法首先将文本进行3-gram分词处理,同时去掉停用词:然后把中心词与修饰词等不同词性颗粒给与不同权值打分,最后通过软阈值输出技术输出关键词,实现了一个比较通用的关键词抽取系统。 2.提出一种新的商品网页信息分块算法。该算法基于本文提出的一套商品网页规则化度量标准。论文依据商品网页的可统计性,给出了网页规则化度量标准的数学表达式。本文算法首先将网页表示成DOM树,然后将每一个叶节点表示成XPATH路径结构,同时根据得到的XPATH计算网页规则度的统计量,通过对路径XPATH的聚类与得到的网页信息块统计量,结合启发式规则,实现分割产品信息块。 3.实现了一种网页块分割与包装器(Wrapper)结合抽取产品信息的算法。该方法首先利用网页信息块分割算法,分割出产品信息块;然后采用基于DOM的实例路径覆盖算法,学习抽取模版,抽取产品信息。
其他文献
现代数据采集技术发展迅速,各种基于ISA、PCI等总线的数据采集系统已经相当成熟,但这些采集系统存在安装麻烦、受计算机插槽数量、地址、中断资源的限制、可扩展性差等缺陷。US
随着嵌入式系统技术的不断发展,智能仪器的发展日趋成熟和完善。通过将32位的ARM处理器取代传统的8位的单片机作为智能仪器系统的MPU,并结合嵌入式操作系统技术,有助于进一步提
正交频分复用(Orthogonal Frequency-division Multiplexing,OFDM)是一种将高速数据流转换为同时在多个正交等间隔的载波上发送数据的一种通讯方式。相对于传统的单载波调制,
在过去的二十年中,基于偏微分方程(Partial Differential Equation,PDE)的图像处理方法是图像处理领域所取得的最为重要的成果之一。对于发展遥感图像的目标自动识别技术,运用基
正交频分复用(Orthogonal Frequency Division Multiplexing,OFDM)系统具有良好的抗信道衰落能力和频谱利用率,从而受到越来越多的关注。但是,由于OFDM系统子信道在信号域上的统
分数低阶矩(FLOM)或分数低阶统计量(FLOS)是另一种非高斯信号分析处理的有力工具。把基于分数低阶统计量的研究方法用于图像工程具有重要的实际意义。本论文首先阐述了α稳定
近十几年来,盲信号分离(BSS:Blind Source Separation)一直是神经网络领域和信号处理领域的研究热点。众多的学者投入到盲分离的研究中,为盲分离理论构建了坚实的理论基础。所谓
近年来,无线通信技术和电子技术的进步促使了无线传感器网[1](WirelessSensor Network,WSN)的发展,使得无线传感器网络的实际应用变为可能。无线传感器网络可以应用在军事领
在当今多媒体技术时代,大量的图像信息充斥着网络。如何快速、有效地查询具有丰富内容的彩色图像已经成为学术界的研究热点,基于内容的图像检索技术(CBIR)应运而生。由于人类感
在日益复杂的现代立体化综合战争和对应的电磁环境下,雷达系统和通信系统作为电磁信息的主要载体,数字化集成的趋势越来越明显,这为雷达通信一体化设计的实现提供了可能。频控阵