模板化网页主题信息的提取方法

来源 :第三届全国搜索引擎和网上信息挖掘学术研讨会 | 被引量 : 0次 | 上传用户:justinviva
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了消除网页噪音,有效地提取基于模板的网页主题信息,提出了一种新的信息提取方法.该方法采用机器自动学习方式生成网页集的模板;以网页链接关系中的锚点文本作为提取目标对模板进行标记,生成对应模板的提取规则;依据模板的提取规则对网页主题信息进行提取.对国内2 588个新闻网页进行了检测.实验结果表明,该方法可以快速、有效地提取模板生成的网页集主题信息,准确率达99.5﹪.将该方法应用于搜索引擎系统(木棉检索)中,与原来的检索系统相比较,索引文件的大小减少约50﹪,检索的速度和精确度也得到提高.
其他文献
用圆二色和拉曼光谱法表征了Cu2+或Mn2+存在下白花丹素对人血清白蛋白构象的影响.结果表明,白花丹素改变了人血清白蛋白的二级结构并降低了它的α-螺旋的含量.同时白花丹素也
通过数值求解三维定常黏性雷诺时均N-S方程,获得了叶尖单孔自发射流条件下的叶栅流场,分析了自发射流与泄漏流的相互作用,比较了有、无自发射流条件下叶尖泄漏及载荷分布,探
为解决荒漠土壤有机质含量高光谱估算存在的困难,提高土壤有机质含量估算的精准性,该文对准噶尔盆地东部荒漠土壤进行采样、化验分析和光谱测量、处理,分析土壤光谱与有机质
产甲烷菌对环境变化的敏感性很容易导致厌氧发酵失败,如何保证产甲烷菌的活性是厌氧发酵稳定进行的关键。在考察RY3、SH4、G1、G2和G3产甲烷菌株主要生理生化特征和拮抗作用的
光伏发电系统受气候环境等条件影响,输出功率具有间歇性、随机性等特点;另外,光伏组件、逆变器中的元器件老化等因素使光伏发电系统模型具有不确定性.为保证光伏发电系统柔性
通过对双回线环流网沿线电压分布的频域表达,推导出基于两端电流量的双回线故障定位方法其能够准确定位故障的前提是两端电流量从一次到二次的传变具有相同的传递函数。由此
“煤地质学”是地质工程专业和资源勘查工程专业的核心专业课。随着地球科学的现代化,煤地质学的研究领域不断完善和开拓,在含煤盆地、含煤层序地层、煤岩学、煤层气地质学等
利用目前国际上较流行的极端气候指数方法对1951~2006年齐齐哈尔市24种极端气候指数进行计算和分析,得到了齐齐哈尔市极端气候事件的事实和变化特征.结果表明:齐齐哈尔市的年
以北京山区水土保持与生态环境建设的三道防线划分为对象,研究建立三道防线划分的指标体系,并运用遥感(RS)、地理信息系统(GIS)、空间多准则评价(SMCE)等技术手段和定量分析
对福建省三明各县(市)1961-2008年汛期(5、6月份)的降水资料进行统计分析,揭示汛期雨量特多、特涝和异常偏涝年份的时间、地域分布特征和周期演变规律;用500 hPa月平均高度场