一种中文网页的聚类算法

来源 :中国科学院计算技术研究所第六届计算机科学与技术研究生学术讨论会 | 被引量 : 0次 | 上传用户:reaker
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文提出了一种考虑网页内容与网页之间链接的新聚类算法.在给出了一种新的网页表示方法后,着重讨论了网页间距离度量的方法.然后提出了一种新的聚类算法对网页进行聚类.在给定聚类半径后,任何网页可以通过比较其与聚类中心的距离决定其类别的归属.实验表明该算法不仅具有较高的聚类精确度,而且具有较高的聚类效率,较适合于Internet网上数据量大的特点.
其他文献
本文提出了N-gram模型在机器翻译系统中的几个应用.模型是在语料库的基础上统计连续几个词的出现概率,以此来筛选翻译过程中的侯选元素,并可以对译文的语序进行纠正.由于此种方法是建立在语料库的基础之上的,从而具有真实可靠和实时等特点.实验表明,这种方法具有良好的性能,且与被处理的语言无关.
本文讨论了分布式数据库安全的有关模型和在辽电MIS系统中的应用.首先介绍了分布式数据库及其安全的有关概念,分析了数据库安全存在的问题,对数据库安全的威胁,以及数据库安全的主要防卫措施.详细介绍了保证数据库安全有关模型,其中包括基于强制存取策略的贝尔-拉帕丢拉模型和第昂模型.分析了辽电MIS系统数据库的安全保护措施,进而提出了强制存取控制策略和自主存取控制策略相结合的方法来保证数据库的安全.
本文首先分析了常用IC的测试方法,着重讨论了内嵌CPU和存储器的集成PAGER控制器的可测性设计,根据扫描测试的原理,实现了一种基于CPU的调试方法.该调试方法利用了芯片已有的几种测试模式,只需在芯片中增加很少的控制逻辑即可从外部实现对芯片调试.
现有的大部分网上求职系统是基于瘦客户机/胖服务器模型建立起来的,这种模型的一大弊端是服务器负担太重,处理时间过长,基于XML构建的网上求职系统解决了这类问题.XML是面向内容的标记语言,通过定义特定行业的标记,可以实现机器解析和处理数据,这样服务器的工作可以转移到客户机完成,从而减轻服务器负担,提高系统处理速度,减少网络传输流量.本文介绍了基于XML构建网上求职系统的主要思想,并简单介绍了网上求职
本文首先以实例比较分析了模糊max-min运算和代数加权求和运算及它们实现的模糊神经网络和普通神经网络在数据分析与辨识中的异同,继而给出了模糊max和min算子的代数局域神经网络具体实现方式;最后对模糊max-min运算和代数加权求和运算及它们实现的两种神经网络就原理、相互关系、适用情况作了论述,指出前者适宜于信息处理的中、高级阶段;后者适宜于信息处理的中、低级阶段.
随着Internet的普及,网络安全问题日益严峻.如何增强网络安全已经成为网络技术进一步发展所必须解决的问题.本文首先介绍网络攻击的现状并预测其未来的趋势,然后在综合前人研究成果的基础上,对Internet网络攻击的起因进行探讨,提出以全面的、系统化的防范策略对抗现在乃至未来的网络攻击,并着重指出,对抗网络攻击既需要考虑短期效果,也不能忽视长期目标.最后,本文从短期目标出发,提出全面的、系统化的防
数字水印技术是一种新型的数字产品版权保护技术.它利用数据隐藏技术将特定的信息隐藏在数字产品中,达到标识和保护著作权的作用.本文介绍了数字水印技术的基本流程及其特性,针对不同应用对水印系统又有不同的要求.还介绍了现有的通用图象水印算法和攻击方法.最后文章提出了现有水印系统的局限和将来的发展趋势.
我们从汉语输入中的同义词识别问题出发、实用为主,提出了一个关于语法分析触发语义分析和计算的框架.语义分析是在语法分析基础上进行的,语法属性关系激发语义分析.语义分析实际上就是语法分析的进一步细化,解决语法分析不能解决的歧义.我们建立了一个进行语法和语义分析的拼音一汉字转换系统.语法分析使用了LR语法分析器,语义分析的核心是具有类属层次结构的语义知识库,使语义分析根据主位语义类进行属性计算.
随着存储技术、压缩技术以及网络技术的发展,人们对多媒体信息的需求越来越广泛,基于内容的图象检索受到广泛重视.早期的基于内容的图象检索系统以图象处理技术为核心,研究重点集中在视觉特征的选择和提取方面,而没有充分利用人们在视觉方面的主观性和人类所广泛使用的高层次概念和低层次视觉特征之间的相关性.为解决上述问题,近年来相关反馈在基于内容的图象检索中受到重视.本文提出一种新的相关反馈方法,使得高层次语义特
如何评价用户程序的存储效率?本文首先提出了程序的装入因子的概念,并据此分析了矩阵乘法;其次,根据时间局部化原则,提出了一种"时间差最小方法",该方法可以有效地减少cache line的装入数目;最后,为了评价程序的存储延迟,给出了程序数据相关性的概念,据此提出了计算装入因子的公式,用于分析程序的存储效率.这样,我们可以用big-0模型来表达程序的时间复杂性,而用装入因子来表达程序的存储访问复杂性