web文本聚类系统的设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:bigger111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文首先介绍了所设计和实现的web文本聚类系统,并分析了系统架构,描述系统的实现过程,然后介绍了目前比较常见的一些文本聚类方法的算法及其利弊,进而详细阐述了一种比较出色的web文本聚类算法:STC(后缀树算法),紧接着通过对STC算法的进一步分析,指出其诸多不足,针对不足提出新的聚类算法:FTC(频度树算法),并举例对两种算法在建立树和收集聚类结果等方面进行比较,。最后,在该系统上的实验及相应数据分析表明频度树算法相对于后缀树算法,具有更高的时间效率,更低的无效聚类率,从而证明频度树算法更适用于web文本聚类。
其他文献
随着分子生物学的发展,越来越多物种的全基因组序列已为人所知,这使得在基因组间寻找一些共性的遗传痕迹成为可能。而基因组中最基本的特征之一就是碱基频率,已有研究表明基因组
近年来,北京市郊区的生态观光农业取得了长足的发展,出现了许多新模式,本研究通过实证研究的方法,总结北京郊区生态观光农业的典型发展模式,为京郊生态观光农业的进一步发展提供理
进入21世纪以来,信息在推动经济和社会发展中的作用日益巨大,并且对人们日常生活的影响无处不在。在线视频和高速下载等数据业务的快速增长,使移动通信拓展到宽带数据业务,因此,移
在目前的交易环境下,大多数印刷商会花费很多的时间和精力来确保如何留住现有客户,而不是专注于赢得新客户.然而,随着时间的推移,每个企业都会经历某种程度的客户流失,这是一
期刊
在雷达信号日益密集的电子战环境下,要以较高的准确率完成雷达信号的分选与识别,雷达侦察设备除了继续检测载波频率、到达角、到达时间、脉冲宽度和脉冲幅度这些传统参数外,还必
通信技术历来被称为世界经济和军事的生命线,而通信中的保密技术则是核心技术之一,从来就是竞争激烈的领域。“时代日益信息化,社会日益网络化”,信息化的风暴震撼全球,信息战将成
日本纸质出版市场连续多年下滑,2019年仍无起色.rn据日本出版科学研究所统计,20世纪90年代中期,是日本出版市场的巅峰时期.1995年以前至1997年日本出版销售额均为2.6万亿日元
期刊
玉米是我国重要的粮食和饲料作物。由隐性o2基因控制的优质蛋白玉米(QPM)的籽粒中赖氨酸和色氨酸两种单胃动物必需氨基酸的含量较普通玉米高出一倍左右。O2基因是玉米重要的转录因子基因,在转录水平和翻译水平上参与调控玉米胚乳发育过程中多个基因的表达,其前导序列还可以调节自身基因的表达。阐明由o2基因引起胚乳醇溶蛋白合成的抑制、氨基酸代谢与淀粉合成的途径改变、糖代谢水平下降、易感病感虫、雄蕊早熟等生理、
依据时间域反射测试技术(TDR)的基本原理,提出了TDR技术在滑坡监测中的野外工作方法。为了更好地了解电缆的变化规律,进行了室内试验。结合实际应用,给出了TDR监测滑坡的野外
移动通信业务流量近二十年来始终保持高速增长,稀缺的频谱资源严重制约无线通信的发展。为满足用户需求,提升传统蜂窝网络容量的主要方法是增加小区数量,提高单位面积上的频