基于链接路径预测的聚焦Web实体搜索

来源 :计算机研究与发展 | 被引量 : 0次 | 上传用户:yyw2dy2001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实体搜索是一个有前景的研究领域,因为它能够为用户提供更为详细的Web信息.快速、完全地收集特定领域实体所在的网页是实体搜索中的一个关键问题.为了解决这个问题,将Web网站建模为一组互连的状态构成的图,提出一种链接路径预测学习算法LPC,该模型能够学习大型网站中从主页通向目标网页的最优路径,从而指导爬虫快速定位到含有Web实体的目标网页.LPC算法分为两个阶段:首先,使用概率无向图模型CRF,学习从网站主页通往目标网页的链接路径模型,CRF模型能够融合超连接和网页中的各种特征,包括状态特征和转移特征;其次,
其他文献
给出实数域上关于伴随矩阵方程X=A解的讨论.
应用大型有限元软件ANSYS/LS-DYNA对双金属复合板的轧制过程进行了数值模拟,获得了单位轧制压力的分布情况,并由此计算出双金属复合板的轧制力.模拟结果证实了应用显式动力学
在21世纪物理学的晴朗的天空上正漂浮着一大团乌云,亦即占字亩总量的73%的暗能量。当前物理学发展的形势是:黑云压城城欲摧,山雨欲来风满楼。新的“一大团乌云”的出现表明:物
文章论述档案馆文化惠民服务的必要性和可行性。必要性包括:政策引导--推动创新服务和文化惠民;档案馆的发展需求--强化文化功能、突出惠民目标与提升服务能力;公众需求--双
据调查,高校内男生的创业意愿要远高于女生,理工科学生创业的意愿要高于文科和艺术类。毕业后选择自主创业的学生仅占17.2%,接近半数的学生对创业有过想法,但付之于实施的很
肺癌是威胁人类健康的主要疾病之一,发病率死亡率较高[1]。非小细胞肺癌(non-small-cell lung cancer,NSCLC)占了肺癌的80%~85%[2]。80%左右的肺癌患者死于肿瘤的远处转移扩
我国科学家成功找到了利用“传递杀虫病毒的卵寄生蜂”防治害虫的新方法。这种卵寄生蜂通过寻找寄主的方式,将病毒带入目标害虫的卵表面,完成病毒的“卵期”接毒,导致初孵幼
银杏苗木出圃后土地中残留了大量的根系 ,如何变废为宝 ?以及苗木、大树根系受损后又如何补救 ?我们摸索出了 3种根接技术 ,平均成活率达 92 % ,室内操作 ,简便易行 ,是快速
近年来,商业标识共存已经成为解决我国商业标识权利冲突的有效路径,其可分为商业标识协议共存与商业标识法定共存两种类型。从成因上看,商业标识共存既是商业发展的结果,也是
目的:建立甜菜碱的高效液相色谱测定法,用于甜菜糖蜜中提取甜菜碱的生产工艺。方法:采用SCX阳离子交换柱(250mm×4.6mm,5μm),柱温40℃,0.003mol/L磷酸二氢钾溶液为流动