基于分块的网页主题信息自动提取算法

来源 :华中科技大学学报:自然科学版 | 被引量 : 0次 | 上传用户:ode
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对互联网上大量存在的基于模板的网页,根据其半结构化的特点,提出了一种网页分块和主题信息自动提取算法.该算法利用网页标记对网页进行分块,改进了传统的文本特征选择方法,把网页块表示成特征向量,并根据有序标记集识别主题内容块.用该算法改进了网页分类的预处理过程,提高了分类的速度和准确性.实验表明,对网页进行主题信息提取后再进行分类,可以提高分类系统的查全率和查准率.
其他文献
研究了一类具有小世界网络拓朴结构的连续时间动态特性的复杂网络的一致性问题.应用遗传算法对小世界网络进行优化和计算机仿真,结果表明:对于小世界网络而言,网络达到一致性
《在那遥远的地方》是王洛宾作词作曲的一首歌曲,它的曲调源于哈萨克民歌,就是根据《羊群里躺着想念你的信》改编的,这首歌曲首先在甘肃和青海一带传开,几十年来被当作青海民
针对目前基于Web的车辆监控系统由于浏览器处理功能有限而产生地图加载速度慢、车辆运行轨迹显示不连贯等诸多问题,通过对车辆监控系统典型架构的研究,利用Ajax模式和GIS Web
为贯彻落实中共中央、国务院《关于治理向企业乱收费、乱罚款和各种摊派等问题的决定》,巩固治乱减负的工作成果,加大治乱减负工作的宣传力度,西城区物价局于1999年底对反映比较
随着人们生活水平的不断提高,人们的业余生活也丰富起来,旅游、探险、体育休闲......而我唯爱读书。除了读与自己工作有关的书外,我还充分接触各种各样的书籍。对我来说,可以不去
<正> 目前,在国民经济信息化建设中,从业务需求说明,管理模式设计、系统工程总体设计、系统设计、软件开发、设备采购、系统集成、安装调试、人员培训、系统维护等都要签定一
期刊
本文报道利用表面电荷法对一实际三极场发射电子枪的发射特性所作的计算分析得到了尖端表面电场分布,虚源随V<sub>1</sub>的变化以及电子束进入第二阳极后形成最小交叉束斑的
腙是由化学计量数相当的肼和醛或酮溶解在稳定溶剂中经回流而制备的,这些化合物在冷却的情况下通常可以结晶出来。腙类试剂结构为R<sub>1</sub>-CH=N-NH<sup>*</sup>-R<sub>2
<正> 九十年代,根据国家制定的发展目标。到2000年国民经济要实现年均9%的增长速度,并达到产业结构调整、升级的目的。要实现上述目标,需要投入巨额资金。假设投资率保持在32