互联网网站属性标识技术的研究与实现

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户:hydhyd112
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术与产业的急速发展,网络中的数据量越来越庞大,涉及的领域、网站的种类与日俱增。在享受海量信息的同时,获取特定目标信息的难度也不断增加。对网站的标签标识是对网站主题精准全面地概括,有助于有效地分析互联网网络,对人们更快捷准确地寻找信息具有巨大意义。基于网站标签标识的研究现状,本文深入研究了网站标签标识相关技术,并针对已有技术的不足做了改进。本文的工作主要分为以下三个方面:第一,给出了一个网站关键资源动态提取策略。关键资源是网站中最具有代表性的网页。本文将针对关键资源的分类器与限定爬虫相结合,有针对性地抓取最能代表网站主题的网页。该策略能够下载较少页面而获取大部分关键资源。第二,提出了一种改进的网站多标签分类算法。针对网站多标签标识的需求,本文改进了现有的多标签分类算法,用于网站标签标识领域。该算法对网站的多数据域特性和数据域完备性问题都有较好的适应性。实验结果表明,使用此算法对网站数据进行多标签分类的效果得到了明显提高。第三,设计并实现了网站标签标识系统。结合前两方面的研究结果,实现了网站标签标识系统。输入一个网站种子链接,系统动态地提取出该网站的关键资源,然后使用改进后的多标签分类算法为网站标识多个标签。运行结果证明,网站标签标识系统的性能良好,准确率得到提高。本文改进了现有技术,实现了对网站的标签标识,具有减少所耗资源,提高准确率的优点。
其他文献
无线Mesh网络作为一种新型的宽带无线接入技术,具有传输速率较高、覆盖范围较广和组网成本较低等特点,是解决无线终端接入Internet的一种比较有竞争力的技术方案。然而,由于
利用同源克隆技术,对拟南芥再生相关基因PID作同源序列比对,从大豆中克隆PID基因全长CDS序列,得到大豆再生相关基因GmPID,分析大豆再生相关基因GmPID启动子序列、氨基酸序列
随着高速接入网快速发展,终端用户可以获得更快速,更高质量的服务;同时,接入网络也可能因为自然灾害或者其他不可预测的因素,导致网络发生故障而影响用户的正常使用甚至给用户
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
目的:循环内皮细胞(circulating endothelial cells,CECs)产生于血管损伤过程。血管损伤与多种疾病的发生息息相关,这其中包括了急性心肌梗塞(acute myocardial infarction,A
FKBP12(FK506-binding protein12)是细胞响应免疫抑制剂雷帕霉素(rapamycin)和FK506的重要胞内蛋白。通过与FKBP12结合,雷帕霉素可以抑制mTORC1(mammalian TOR complex1)的活性。mT
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
甘肃鼢鼠是我国黄土高原特有的营地下生活的鼠类,终年生活在地下黑暗的洞道内,很少在地面活动,其洞穴呈封闭状态,生活的空间格局对其身体结构、生理机能及感觉器官产生了深刻的影
目的:探究BFA与顺铂体外抗人肺癌和人卵巢癌的协同作用及分子机制。  方法:将人肺癌细胞(GLC-82)和人卵巢癌细胞(SK-OV-3)分别分为对照组、BFA组、CDDP组、BFA+CDDP组。对各组进
本研究以HPLC等仪器分析手段测定显齿蛇葡萄Ampelopsis grossedentata(Hand.-Mazz.)W.T.Wang中二氢杨梅素及其生源相关黄酮苷元的含量,并借助SPSS软件分析相关性,明确二氢杨梅素代谢积累的关键前体及竞争性底物。1)建立了HPLC分析检测显齿蛇葡萄叶中二氢杨梅素的方法,回归方程为:Y=28327X-101.2(R2=0.996),定量限为35.74 ng,在0