网页分类技术

来源 :清华大学学报(自然科学版) | 被引量 : 0次 | 上传用户:wuyan68
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网页分类是使用机器学习的方法实现网页类别的自动标注。回顾了文本分类技术的研究状况,分析了网页的结构特征,难点在于结合网页的结构信息选择合理的表示方式和分类算法。使用纯文本分类技术处理网页是不合理的。基于概率模型的方法和关系学习方法计算量大,关系学习方法学习结果的可解释性好,支持向量机方法分类准确率高,但核函数的构造和大规模数据集的训练都是该算法的难题。应该采用多种指标对网页分类算法进行评价。
其他文献
提高课堂效益,减轻学生的课外负担,这是教育界十分关注的问题.中学数学测试后的评讲课是复习课的继续和深化,是中学数学教学的重要环节.笔者拟通过对测试后的评讲课的探讨,希望能在
日前,笔者走访山东省一家董姓肉鸭养殖农户。四年前,他们建起了1500平方米的三座鸭棚,自此一直从事肉鸭养殖,现在存栏6000只鸭。$$ “我们养的是‘合同鸭’,用公司的苗、料、药
报纸
<正> 经过两年来的田间试验与群众鉴定,证实利用青蛙治虫,是一项有希望的生物防治方法。据观察,一只雌性黑斑蛙成蛙每天最高可食黑尾叶蝉、褐稻虱、稻纵卷叶虫、螟虫、稻苞虫
根据线性无量纲化方法函数构成所使用的中心点值和值域指标以及其斜率和截距的表达式,对8种线性无量纲化方法进行分析,从不同的角度再次论证不同线性无量纲化方法所满足的性
通过对内蒙古东乌珠穆沁旗(简称东乌旗)敖包查干地区中生代陆相火山岩地质调查、同位素年龄测定、岩性岩相分析,划分出两个火山活动旋回(满克头鄂博旋回和白音高老旋回),恢复
从人民币"外升内贬"这一经济现象出发,首先分析了传统的购买力平价理论在解释人民币价值问题上的失效,然后从巴萨效应、汇率超调、QE政策和输入性通胀、中国经济非均衡增长路
新《环境空气质量标准》(GB 3095—2012)实施以来的监测结果表明,我国第一批实施新标准的74个重点城市光化学烟雾污染总体呈加重趋势,2016年O3日最大8 h平均质量(O3-8 h)浓度第90
<正>记者从嘉兴市科技局了解到,截至去年底,由市科技局会同市财政局、市金融办等单位组成的"嘉兴市科技金融支持企业认定小组",共认定552家企业进入科技银行支持科技企业库,
<正> 痴情姑娘与铁心的士兵倾一腔恋情消解了战火纷飞。树下话别,劳燕分飞,柔肠寸断揉碎了整整二十五年的日辉月影,此情弥坚承续着悠悠二十五载的苦苦追寻。痴情女已为人妇,
<正> 缙云县病虫观测站和该县红岩公社镇东九队,于一九七三年开展了利用青蛙治虫的试验研究,初步明确泽蛙、金线蛙、虎斑蛙等能捕食鳞翅目、鞘翅目、同翅目等多种害虫,包括水
期刊