【摘 要】
:
将预处理后的XML数据当作文本信息采用词频-逆向文档频率(TF-IDF)模型进行处理时,逆向文档频率作为词项权重有其不足之处.为此,文中定义了词项的数据源敏感度作为逆向文档频率(I
【机 构】
:
中国科学院成都计算机应用研究所,贵州大学现代制造技术教育部重点实验室
【基金项目】
:
国家科技支撑计划项目(2012BAF12B14,2012BAH62F01), 贵州省科技项目(黔科合重大专项字[2012]6021,黔科合计工字[2012]4009)
论文部分内容阅读
将预处理后的XML数据当作文本信息采用词频-逆向文档频率(TF-IDF)模型进行处理时,逆向文档频率作为词项权重有其不足之处.为此,文中定义了词项的数据源敏感度作为逆向文档频率(IDF)的修正系数.其值取决于提供此词项的数据来源于不同数据源的概率,概率大则其值大,反之则其值小.然后在修正后的词项权重向量的基础上,定义了相似度函数.最后在模拟、真实数据集上进行数据重复检测实验.结果表明,新方法获得了更高的F测度值.这说明考虑词项的数据源敏感度可提高相似度函数的有效性.
其他文献
我的母亲不信主,不信教,不烧香,不磕头,就是见不得可怜的人,听不得可怜的事。她说自己眼窝儿浅,好流泪。其实,她是太善良、心太软。在我的记忆里,她给断了腿的小鸡接过骨,给眼睛发炎的小猫洗过眼,也给生下来就没奶的四只小狗喂过奶粉。 母亲是父亲的第二个妻子。父亲的前妻过门不到三年就病故了,也没留下一男半女,娘家还有一个残疾的老娘,罗锅着腰,一只手伸不直,五个指头分不开。不成景儿的那几年,她常常挎个小笆
传统井干式墙体多采用方木和原木建造,木材消耗量过大且长时间使用后易出现变形开裂等缺陷。为解决上述问题,现代井干式建筑大量应用胶合木材技术,取得了良好的效果。本文主
驶在海面上的小船,有时可扬帆万里,有时也会遇到汹涌澎湃的海浪。我们的生活也是如此,有时充满欢声笑语,有时也会烦恼不断,痛苦不堪。中秋节本是中国人团圆的节日,一家人开开心心地
当前高层建筑已成为城市的主要建筑形式,而且高层建筑结构形式也不断趋向于大型化和复杂化。在高层建筑使用功能更加多样化的新形势下,通过设置转换层可以有效的完成上部结构
终于放学了。我拖着疲惫的身子回到家,一推开门,就闻到一股诱人的香气,满身的疲倦顿时一扫而空。爸爸看见我,麻利地盛出米饭。妈妈端上来一盘龙虾招呼我:“来来来,放下书包,洗过手来
我默默地倚在窗边,阳光明媚,空气里隐约有花的香气。这似乎是一个灿烂的午后,可一切美好都在离我远去。 其实,我也没有那么失落和悲伤,有时会想流泪,可又说不出到底在感伤些什么。默默地望一会儿天空,它有时阴暗低沉,有時却蔚蓝明朗。晚饭后从食堂走出来,夜风微凉,天边挂着寥落的星子,披着夜露的微光,我静静想着心事。 独自坐在黑暗的操场中央失神,夜跑的学生一个接一个跑过,他们呼吸有些急促,我想象着他们有一
中考真题成长的路上,我们要超越重重的困难,努力完成各种各样的作品。这些作品或是有形的,或是无形的,都是我们成长的痕迹。其中也许有你心目中最好的作品,也许最好的作品还
教育事件,主要是指在教育教学过程中的突出事件,是对所有教师都有启迪、警示作用的重要事件,我园注重将发生在教师身边的教育事件作为典型案例引入园本研修,有效地促进了教师的专业成长。 事件一:排查安全隐患,学习应对策略 事件描述:在进班调研中。我们发现年轻教师对幼儿很有亲和力,也能细致照顾孩子的生活和学习,但也多次发现他们不注意活动中的安全隐患,特别在上下楼梯、外出活动时,年轻教师经常只管带
一种快速、简便的皮下埋植剂取出方法张桂英张婉萍张淑芹自1994年4月至1996年5月,我们对标准的皮下埋植剂取出方法进行了改进,并用改进后方法取出123例,效果满意,现将方法介绍如下。1.手术器械:消
本文综述了铁族硬质合金的性能特点,重点关注了WC-Co基硬质合金的研究现状,归纳了通过添加不同组分对硬质合金性能的影响,介绍了粉体制备、烧结工艺、制备过程中的相变以及界