从网站中自动挖掘数据记录的算法

来源 :东南大学学报:英文版 | 被引量 : 0次 | 上传用户:studycomputer1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了提高从web中挖掘数据记录的精确性和完整性,提出了同构页与目录页的概念及3个算法.如果一组网页结构相同,只是主信息不同,该网页称为同构页.一个包含有多个指向同构页连接的网页称为目录页.算法1用于发现目录页,它首先将连接排序,并对同一目录的链接记数.如果记数大于桌一给定阀值,则对其链接子页进行相似比较并得到结果.同时给出了一个网页相似度判断的函数、算法2采用了噪声信息过滤方法从同构页中挖掘主信息并得到数据记录,该算法是基于在2个同构页中噪声信息相同而只有主信息不同,算法3通过采用Spider技术可以实现
其他文献
针对目前广泛使用的道路土方量计算方法平均断面法和棱柱体法计算不准确的缺点,提出了三维土方量计算算法的概念.该算法以带约束的狄罗尼三角化(CDT)为技术核心,认为所有道路
随着电子技术的广泛应用和计算机软件的发展,屏幕文字图表已成为电视新闻节目中重要的视觉形象之一。它直观、生动,使电视画面的信息传播具有更大的明晰性,节目内容更新颖,更
<正> ◇一张优秀的新闻照片见报后,会给广大读者带来回味无穷的感觉,这就是它自身的吸引力。如何能产生这种吸引力?这就需要我们摄影记者必须具备灵活的新闻敏感、过硬的技术
【正】“在希腊哲学的多种多样的形式中,差不多可以找到以后各种观点的胚胎、萌芽。”(《马克思恩格斯选集》第3卷,第468页)。这一点完全适用于逻辑学。“人体解剖对于猴体解剖是
在自己的职责范围内,能不计个人得失与安危,去维护法律的尊严,去为他人奔走呼号,那用真诚和无私在人们心底唤起的敬佩,高于一切奖赏。因为,口碑就是人们心中的丰碑。《检察日
【正】本文的题目叫做“论普通逻辑的改革和现代化”,在具体论述这个问题之前,看来有必要对其中所使用的“普通逻辑”、“改革”、“现代化”的含义做些解释。
在web信息集成领域,为消除语义异构、实现语义融合,将分类本体引入WWW信息集成,设计了一种基于本体集成的web信息集成系统.通过构建标准分类本体以获取局部分类本体,并建立二者间
对社会主义的正确认识,是胜利进行社会主义建设的前提。因为它直接关系到党的总路线、总方针的制定。社皇丰义建设事业的胜利与失败.前进与倒退,矛不与对社会主义的总体认识有关
<正>近年来,我国报纸的文摘版呈壮大趋势,很多报纸甚至开辟一半以上的版面办文摘。究其原因,一是这种版面符合广大读者的阅读需求,读者可以在较短的时间内,阅读较多、较新、