【摘 要】
:
互联网的迅速发展导致网上信息飞速增长,形成了我们不能忽视“信息爆炸”的问题——信息极大丰富却导致知识的难以查询。目前,WEB已经发展成为拥有3亿页面的分布式信息空间,而在
论文部分内容阅读
互联网的迅速发展导致网上信息飞速增长,形成了我们不能忽视“信息爆炸”的问题——信息极大丰富却导致知识的难以查询。目前,WEB已经发展成为拥有3亿页面的分布式信息空间,而在这些异质的3亿WEB页面的资源中,蕴含着大量的人们迫切需要的知识。本文针对网页采集、网页净化、获取文档特征量、WEB文本聚类这几部分内容,进行了深入的研究,完成了以下工作:(1)介绍了网页采集的基本原理,研究并且比较了目前常用的几种网络信息采集算法。(2)为了有效对网络信息进行处理,必须对采集进来的网页进行净化,本文介绍了网页净化基本原理,研究分析了各种网页净化方法。(3)提出了一种新的网页净化算法——基于dom树的网页净化算法。该算法通过比较同一网站网页的dom树来净化网页。(4)研究比较了国内当前比较流行的中文分词算法,比如基于字典词库匹配的分词方法、基于词的频度统计的分词方法、基于知识理解的分词方法。(5)介绍了如何通过向量空间模型建立WEB文档的特征向量。(6)研究了两种常用的WEB聚类算法——k平均算法和som算法。(7)提出了一种新的WEB聚类算法,投影WEB聚类算法。
其他文献
随着互联网的不断发展,网站类型、数量及功能不断增加。人们对网络信息的依赖程度也不断增强,由此产生的网站可用性问题日益突出,如何改善网站可用性已经成为值得关注的问题
父亲今年90岁,还是闲不住,朝朝暮暮,一如既往.记得在童年时,我天天见父亲一大早就背上他那自编的竹背篓,边走边拾粪,直到他人影消失在晨雾中.现在,父亲还这样,他每天清早起床
世界能源产业动荡不定,油气市场竞争激烈,企业的经营环境发生着剧烈变化。我们正处在淘汰别人或被别人淘汰的大变革时代,是生与死的抉择时代。要在这样激烈的竞争时代中生存与发
午后,五时三十三分.rn落日倚靠在树梢,云雾腾了起来,沉沉迷蒙.但灰沉沉的天空掩盖不住落日的余晖——像是稚嫩的孩童在城市上空用圆规划出一个洞,再撒以烫金的朱砂.天鹅绒般
她,身材高挑,大大的眼睛,高高的颧骨,扁平的鼻梁是她面部主要的特征.她出生在农村,从事农业生产劳动是她生命中的重要内容,她很平凡,但村里人说她年轻时是村里少有的美人胚子
电视上,建国七十周年大阅兵已经开始了.天安门十里长街上响起了雷鸣般的欢呼声.一队队士兵迈着毫秒不差的步伐从远处走来.我的脑海里突然就闪过古斯巴达士兵的英武雄壮.广场
“无用之用”简明其意,即没有用中的有用.而庄子何出此言?因为他看到了无用之物的有用之处;看到了无用之事的有用之法;看到了无用之人有用的闪光点.而反观惠子,却直言樗树无
“江南好,风景旧曾谙.日出江花红胜火,春来江水绿如蓝.”rn客居江南已有十年.“梦里不知身是客”从肺腑发出.初到杭州,是在一个冬季.冷冷清清、寻寻觅觅……夜幕降临.在霓虹
转眼间,我来到新的研究所已经有一个多月了,也渐渐适应了这里的生活.只是偶尔,我的眼前会浮现那个坐在自习室里,精神专注、伏案疾书的身影.我想任岁月变换,沧海桑田,我都忘不