Deep Web下基于中文分词的聚类算法

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:zhiyouyiren
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Deep Web飞速的发展,使用商业网站上所提供的查询接口从Web数据库中获取高质量数据并对这些数据进行分析加工处理显得尤为重要。通过动态提交关键词,利用查询接口得到检索页面,对检索页面中的中文信息进行抽取并进行分词处理,对分词的结果进行统计分析,通过引入DF进行降维得到特征项,使用TF/IDF计算得到特征项的权重向量矩阵,对权重矩阵进行聚类从而实现文档的分类。通过仿真实验检验了算法的合理性和可行性。
其他文献
提出了一种基于混沌的确定性随机全排列生成方法,利用该方法设计了一种高强度的通用置换加密算法。该加密算法可以作为一个通用模块加入到其他密码系统中,以提高密码系统的强度
随着我国经济的快速发展,教育事业也得到了进一步的提高,不再延续着传统的教师“教”、学生“学”的教学方式,而是在实际的教学中教师只是发挥其引导作用,以学生为主体,充分尊重其
《教育改革纲要》强调:要积极引导学生参与课堂教学,促进学生的思维发展.也就是说课堂教学活动不应该单纯是教师教、学生学,而应该建立教与学相结合,师与生相互交流的新型课堂
目的:观察健肾片对IgA肾病大鼠的治疗作用.方法:使用口服牛血清白蛋白和葡萄球菌肠毒素B感染的复合方法,复制大鼠IgA肾病模型,并分别给予健肾片和雷公藤多甙片治疗,进而观察
函数是支撑数学学科知识体系的重点内容,而定义域是分析函数问题的关键所在.作为函数的基本要素之一,定义域除受解析式约束之外,还取决于其他的限制条件.下面将结合高中教学的实际
随着高考改革的不断深入,对学生的要求由以前的应试型向操作型和实践型转化,这就要求学生不但学会书本知识,更重要的是培养解决实际问题的能力,以及把学到的课本知识应用到实际中
为了延长无线传感器网络的使用寿命,提出一种基于最小能耗树的无线传感器网络路由协议MECT。该协议通过构造一颗生成树来进行数据收集,从而减少了每一轮由于数据传输而消耗的能
细节决定成败.导数问题的几个重要细节如果不加注意,有时就会使问题的解答变得非常复杂,有时甚至会导致严重的错误.本文根据学生在平时作业中常见错误及高考对导数考查的要求列出
为有效地提高基于空间事务的挖掘算法效率,提出一种基于位序的互补空间挖掘算法,其适合在海量数据中挖掘任何长度的频繁项;该算法用定序项目集的方法来减少现有算法存在的冗
在翻译英语科技文章时,有时按照字面意义译,译文晦涩,不通顺,不能充分表达原义。在这种情况下,可以从原文的词语和句子的内在逻辑含义中寻求答案。为此本文推荐以下几种方法供读者