基于DOM的WEB主题信息抽取

来源 :四川大学学报:自然科学版 | 被引量 : 0次 | 上传用户:hzz118
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的发展及其广泛应用,WEB上的信息呈爆炸式增长趋势,但是WEB页面通常包含了很多与主题内容无关的信息,影响了对主题内容的快速获取以及对WEB信息的各种应用.本文提出了一种基于DOM的WEB页面主题抽取方法,快速准确的提取出WEB页面的主题内容,并对1000个网页进行了测试.实验结果表明该方法切实可行,可达到92.46%的准确率.
其他文献
为揭示包含具有LIM结构域的crip基因的功能,以斑马鱼为实验对象,克隆了斑马鱼的crip2基因,并用全胚胎原位杂交法检测crip2在斑马鱼胚胎中的表达,周亚细胞定位法检测crip2基因在细
使用显微拉曼光谱仪对30例食道肿瘤组织和食管正常组织进行了拉曼光谱检测,发现食道肿瘤组织的拉曼光谱在2932cm^-1和1650cm^-1附近出有明显的拉曼峰,而食管正常组织没有发现明
以不同浓度单一沙角衣藻和混合Cd^2+对小麦进行处理,分别在处理后第0~6d测定小麦幼苗体内SOD、CAT、GR、APX的活性变化.结果表明,单一Cd^2+处理使前3种酶的活性升高,后一种酶的活性
进行土地利用现状及规划建库平台软件的开发对国土GIS的再开发有着重要意义,本文分析和研究了土地利用现状及规划数据建库基础平台相关的要素,重点分析研究了数据组织管理,数字化加工和制图输出三方面的内容,对于国土GIS相关的研究者和开发者来说,有一定的参考价值和借鉴意义.
对于给定的独立分量分析(ICA)的对比函数,提出了一种准最大期望学习算法及其迭代方法,这个算法研究了在批处理方法下寻找最优解,并用类似于证明EM算法收敛的辅助函数证明了该算法
H、264标准中的运动估计部分占了50%以上的运算开销.在分析了图像运动矢量的中心偏置特性的基础上提出了基于十字模板的梯度快速搜索算法(CGS).该方法提取搜索中两个点蕴合的矢量
构建了Anabaena PCC7120的复制起始蛋白DnaA的重组表达质粒,在Escherichia coli中诱导其超量表达,纯化后免疫家兔获得抗体,采用Western blotting检测DnaA在营养细胞和异形胞中的
经硫酸铵分级沉淀、SP-Sepharose FF离子交换层析、Blue Sepharose CL-6B亲和层析和Superdex75分子筛层析从苦瓜籽中纯化出苦瓜核糖体失活蛋白.纯化的蛋白经IEF、梯度PAGE、SD
对水葫芦采用不同浓度的NaOH预处理,研究其对水葫芦厌氧发酵产气量的影响. 在培养基中分别加入乙酸钠、碳酸氢钠和发酵上清液培养沙角衣藻,讨论对沙角衣藻生长的影响. 结果发
为进一步阐明脊髓损伤(SCI)的修复机制,对SD成年大鼠进行急性全横断损伤,将损伤前后的大鼠脊髓总蛋白质进行固相pH梯度双向凝胶电泳(2D-PAGE),经考马斯亮蓝染色后,借助PDQuest软件从