从文档集推导html标签影响因子的算法

来源 :计算机科学 | 被引量 : 0次 | 上传用户:dyflovedyf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在Web文档中,同一个关键词处在不同html标签中,其对中心思想影响程度各不相同。选择合适的标签影响因子,对于构建文档的数学模型至关重要。本文在总结前人研究基础之上,提出了一种新的推导算法,该算法提出了ttf(标引词标签频率)和itf(逆标签频率)等定义,构造出行序为标签、列序为关键词的文挡矩阵。从中抽取每个文档的某一特定行向量组构成一个新的向量集舍,根据这个新集合中各个向量到质心的平均距离,就能得出该特定行向量集合所代表的标签的影响因子(针对训练文档集合)。如果训练文档集合的容量放大到足够,就可以近似认
其他文献
假定车险索赔额服从对数正态损失分布,并且其结构方差和过程方差存在显著差异,通过分析全体车险保单组合的历史索赔损失数据,估计出结构方差和过程方差的先验参数,从而得到个
一般文献的研究认为固定工资无激励效果,但经研究发现,在我国国有企业中,经理人的固定工资也有很强的激励效果。由于国有企业的经理人是通过上级政府行政任命的,上级政府对经理具
针对企业质量信用等级评价问题,结合各国的质量奖和质量维度等质量测量工具的研究成果,在简单介绍有序多分类离散选择模型原理的基础上,提出了包含质量战略、质量资源、程控
动态交通分配矩阵是离线状态下多时段OD矩阵估计问题中的一个重要的输入,它刻画了以前时段的OD流量与当前时段的路段检测流量之间的动态关系。对该矩阵的准确估计关系到OD矩
为了揭示先进制造模式的扩散规律,为企业决策及政府调控提供依据,研究了一类先进制造模式的竞争与扩散行为。讨论了先进制造模式扩散的特点和扩散机制,建立了先进制造模式扩
本文在Pawlak近似空间意义下研究粗糙集构成的拓扑空间。借助粗糙集的表示构造了粗糙拓扑空间,其中的开集为粗糙相等关系下的等价类;讨论了粗糙拓扑空间中的内部、闭包算子与近
近几年来,Internet上频繁发生的蠕虫爆发和大规模分布式拒绝服务事件使网络服务的安全性面临严重的威胁。本文介绍了一个基于异常流量检测的Internet骨干网流量早期预警系统ES
本文首先将具有简单封闭曲线特征的闭主曲线学习算法应用于平面有界闭区域图形的边界提取,给出相应的算法。结合拓扑度理论,本文还定义了有界闭区域的边界关联矩阵,引入了平面中图像的F-同胚概念,运用边界关联矩阵是F-同胚下的完全不变量原理,将F-同胚和边界关联矩阵概念有机结合起来,对平面有界区域图形进行拓扑粗分类,以达到缩小搜索范围、提高搜索速度的目的。最后,本文给出了平面有界闭区域图形的计算机拓扑识别的
并行作业调度系统负责对高性能计算系统中作业队列的管理。其核心功能是在每次调度发生时,选择下一个被执行的作业。最简单的调度算法是先来先服务(FCFS)。但这种方法的缺点是资
目前,国际上关于排污权交易理论方面的研究文献很多,但值得注意的一个重要的问题是,除了Hahn等环境经济学家外,大多数学者在排污权交易理论研究和实践问题的讨论中,几乎忽略