【摘 要】
:
基于VSM的文本聚类忽略了文本关键词稀疏带来的相似度漂移问题和关键词之间的语义信息和各维度之间的关系,致使文本的相似度计算不精确,文中对相似度计算方法TF—IDF进行了改进
【基金项目】
:
人工智能四川省重点实验室开放基金(2012RYJ04),“青蓝工程”资助(苏教师[2010]27号)
论文部分内容阅读
基于VSM的文本聚类忽略了文本关键词稀疏带来的相似度漂移问题和关键词之间的语义信息和各维度之间的关系,致使文本的相似度计算不精确,文中对相似度计算方法TF—IDF进行了改进,并提出一种新的聚类方法,利用分布式估计算法和禁忌搜索算法进行聚类,融合分布式估计算法的收敛速度快和禁忌搜索算法能跳出局部搜索的优点,首先对文本进行预处理,然后用分布式估计算法和禁忌搜索算法聚类,既能快速聚类又能防止聚类收敛到局部最优。测试结果表明这种算法行之有效。
其他文献
利用扫描窗口和一维离散周期小波变换以及BP人工神经网络进行车牌识别。被扫描的图像通过一维离散周期小波变换来选择图像的低频系数,这样可以提高执行车牌识别的速度。文中方法是直接对车牌进行扫描,不对单个字符进行识别,并通过MATLAB编程实现。新方法是一种实时识别,车牌识别的实验结果可高达94.7%。
心理学家大卫·艾肯认为,“爱”“工作”“玩耍”构成了人生的金三角,是我们收获快乐与成效人生的关键。人类学家梅尔文·康纳则将“玩”视为一个生物学上的谜团:“它
回首这个假期,或许激动难忘,或许苦涩难言,但都已成为过往,挥手告别这个有人欢喜有人忧愁的暑假,开学的集结号在8月底全面吹响。开学,对于每一个学生来说都是新的起点,莘莘学
素质教育提出已近30年,但其不仅对应试教育的遏制未见成效,反而使应试教育的火苗在基础教育各阶段一路蔓延,令人束手无策。人们不禁要问:素质教育到底还值不值得期待呢?不少人断言
素质教育针对全体学生,以能够促进其全面能力的发展为基础,有效提升学生丰富、独特的综合素质。这种综合素质作为素质教育的核心内容,与创新意识、创新精神、创新能力具有密
首先,将Delphi法和区间统计法进行组合,利用该组合方法计算各级评价指标的权重;然后,组合模糊综合评价法和灰色评价法,给出DIGF组合计算方法;最后,给出了计算实例,证明了方法
随着国内高校规模的不断扩大,高校教学楼数量激增,相应的电费支出已经非常庞大。但事实上,高校教学楼在用电方面却存在诸多问题,体现为电能的巨大浪费,这必须引起足够的重视
针对高校网站信息不能共享、安全性差、运雏管理难等现状,提出了适合民办高校网站长期发展的管理体制和方法。采用网站群管理技术,由信息化办公室统一规划,集中部署,搭建一个操作
在云计算时代,用户面临多种挑战,其中来自多云环境下的挑战尤其引人关注。F5公司作为领先的应用交付厂商,在解决多云环境难题中有着完善的解决方案。在云计算日益流行的今天,
今年是中国抗日战争胜利70周年,中国人民抗日战争胜利的第一个纪念日确立。2015年9月3日,我们在这一天的活动,不仅是为了铭记和反思这段历史,还有对先辈英烈团结一心、自强不息、