从网站中自动挖掘数据记录的算法

来源 :东南大学学报：英文版 | 被引量 : 0次 | 上传用户：studycomputer1

【摘要】

：

为了提高从web中挖掘数据记录的精确性和完整性，提出了同构页与目录页的概念及3个算法．如果一组网页结构相同，只是主信息不同，该网页称为同构页．一个包含有多个指向同构页连接的网

【作者】

：

邱勇兰永杰

【机构】

：

山东工商学院信息与电子工程学院

【出处】

：

东南大学学报：英文版

【发表日期】

：

2006年3期

【关键词】

：

数据挖掘数据记录网站同构网页 data mining data record website isomorphic page

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

为了提高从web中挖掘数据记录的精确性和完整性，提出了同构页与目录页的概念及3个算法．如果一组网页结构相同，只是主信息不同，该网页称为同构页．一个包含有多个指向同构页连接的网页称为目录页．算法1用于发现目录页，它首先将连接排序，并对同一目录的链接记数．如果记数大于桌一给定阀值，则对其链接子页进行相似比较并得到结果．同时给出了一个网页相似度判断的函数、算法2采用了噪声信息过滤方法从同构页中挖掘主信息并得到数据记录，该算法是基于在2个同构页中噪声信息相同而只有主信息不同，算法3通过采用Spider技术可以实现

其他文献

道路土方量的三维计算方法

针对目前广泛使用的道路土方量计算方法平均断面法和棱柱体法计算不准确的缺点,提出了三维土方量计算算法的概念.该算法以带约束的狄罗尼三角化(CDT)为技术核心,认为所有道路

期刊

土方量数字地面模型狄罗尼三角化(CDT)道路设计计算earthwork volume digital terrain model (DTM) co

谈谈新时期受众的心理变化

期刊

受众心理变化新闻传媒中国

电视文字图表小议

随着电子技术的广泛应用和计算机软件的发展,屏幕文字图表已成为电视新闻节目中重要的视觉形象之一。它直观、生动,使电视画面的信息传播具有更大的明晰性,节目内容更新颖,更

期刊

屏幕文字电视新闻节目电子技术图表核心内容文字显示计算机软件电视画面信息传播中央电视台

浅谈摄影记者的基本功

<正> ◇一张优秀的新闻照片见报后,会给广大读者带来回味无穷的感觉,这就是它自身的吸引力。如何能产生这种吸引力?这就需要我们摄影记者必须具备灵活的新闻敏感、过硬的技术

期刊

摄影记者基本功新闻敏感性业务素质敬业精神

古希腊罗马逻辑中的现代逻辑萌芽

【正】“在希腊哲学的多种多样的形式中，差不多可以找到以后各种观点的胚胎、萌芽。”（《马克思恩格斯选集》第3卷，第468页）。这一点完全适用于逻辑学。“人体解剖对于猴体解剖是

期刊

现代逻辑数理逻辑亚里士多德三段论关系逻辑古希腊罗马命题逻辑模态命题斯多葛学派函子等词

公正在他心中永不落——记《检察日报》驻黑龙江记者站站长温学东

在自己的职责范围内,能不计个人得失与安危,去维护法律的尊严,去为他人奔走呼号,那用真诚和无私在人们心底唤起的敬佩,高于一切奖赏。因为,口碑就是人们心中的丰碑。《检察日

期刊

黑龙江省检察院法律公正检察长舆论监督法律知识日报思想行为当事人人生轨迹

论普通逻辑的改革和现代化

【正】本文的题目叫做“论普通逻辑的改革和现代化”，在具体论述这个问题之前，看来有必要对其中所使用的“普通逻辑”、“改革”、“现代化”的含义做些解释。

期刊

普通逻辑传统逻辑真值表复合判断演绎推理数理逻辑直言判断充足理由律旧体三段论

基于分类本体的web集成

在web信息集成领域，为消除语义异构、实现语义融合，将分类本体引入WWW信息集成，设计了一种基于本体集成的web信息集成系统．通过构建标准分类本体以获取局部分类本体，并建立二者间

期刊

信息集成分类本体本体集成个性化information integration classification ontology ontology in

在实践中不断加深对社会主义的认识

对社会主义的正确认识，是胜利进行社会主义建设的前提。因为它直接关系到党的总路线、总方针的制定。社皇丰义建设事业的胜利与失败．前进与倒退，矛不与对社会主义的总体认识有关

期刊

发达社会主义社会主义社会对社会主义的认识列宁生产关系苏联知识分子斯大林阶级关系基本特征

办好报纸文摘版浅谈

<正>近年来,我国报纸的文摘版呈壮大趋势,很多报纸甚至开辟一半以上的版面办文摘。究其原因,一是这种版面符合广大读者的阅读需求,读者可以在较短的时间内,阅读较多、较新、

期刊

报纸文摘版稿件选择服务性可读性新闻性

从网站中自动挖掘数据记录的算法

与本文相关的学术论文