【摘 要】
:
基于特定领域的网站主题识别与分类是领域资源共享的重要研究内容.与网页分类相比,网站的特征描述和分类更加困难.同一主题的网站,其内容组织结构存在相似,可以通过链接文本信息来反映网站的这种结构.因此,在向量空间模型的基础上,从网站内部抽取网站结构和内容的文本特征词,通过混合向量空间模型来描述网站的主题特征.同时基于这种模型,采用类中心向量法进行了制造主题网站的识别实验.实验结果表明这种模型适合于网站主
【机 构】
:
太原科技大学机械工程系,太原,030024;浙江大学机械与能源工程学院,杭州,310027 浙江大
【出 处】
:
2005第一届中国分类技术与应用研讨会(CSCA)
论文部分内容阅读
基于特定领域的网站主题识别与分类是领域资源共享的重要研究内容.与网页分类相比,网站的特征描述和分类更加困难.同一主题的网站,其内容组织结构存在相似,可以通过链接文本信息来反映网站的这种结构.因此,在向量空间模型的基础上,从网站内部抽取网站结构和内容的文本特征词,通过混合向量空间模型来描述网站的主题特征.同时基于这种模型,采用类中心向量法进行了制造主题网站的识别实验.实验结果表明这种模型适合于网站主题的特征描述,有助于提高网站主题识别与分类的准确性和效率,在主题搜索和网站分类等应用中具有较好的适用性。
其他文献
通过对汉语表达习惯、网页结构特性和用户一般浏览模式的分析,归纳出用户兴趣描述包括关键查询词和查询关联度两部分信息,并把过滤任务根据查询关联度不同划分为相关过滤、相似过滤、相近过滤3个层次,提出了可根据训练向量分布特性和用户调节参数自调整查询关联度的BiasedSVMs改进算法.基于BiasedSVMs设计并实现了一个中文Web过滤系统,该系统采用URL分析、主题句分析和网页正文分析相结合的体系结构
为进行多值分类,研究了SVM决策树.基于对SVM决策树的结构与分类性能的分析,定义了特征空间中反映类分布的类分离性测度,并将定义的类分离性测度引入到决策树构成的过程中,提出了改进的SVM决策树算法,对已有数据集的分类实验表明了本文方法的有效性。
关联规则挖掘在电信领域有广泛的应用前景.约束关联规则挖掘可以提高挖掘效率,表达用户兴趣.首先提出了规则格式约束的概念并加以算法实现,然后以电信公司实际数据为对象,讨论了基于规则格式约束的关联规则在电信行业业务发展分析中的实际应用.实验结果分析证明,所得实验结论可以为电信行业近期内的业务发展方向及增长幅度提供辅助的参考依据,同时,挖掘的效率和灵活性也得到了近一步改善,因此,这一方法是有效和实用的。
针对海量中文文本提出了专门的特征提取模型.目标在于提取出某个类别的共同特征,并且评价各个特征权重.模型包含4部分:文档DIDF、类别CIDF、特征的类别集中度FC、长度分布因子LD.模型能够很好平衡各个指标之间彼此相互影响.给出了关键参数:类别最小文档发生数量Pmin、最小相对可信度Cmin、最大类别发生数量Pmax、最小加权集中度FCmin四项最优值.在召回率95﹪下,其分类准确度达到87.34
空间遥感、自动化制图技术和地理信息系统软件的迅速发展带来了大量的空间数据,给传统的数据挖掘技术提出了新的问题和挑战.对于多图层(或多主题)的空间数据挖掘问题,提出了多表聚合算子,并基于此算子提出了空间数据挖掘的算法框架.把这个算法框架应用到了实际的空间数据分类问题中,并得到了较好的运行效率和分类结果。
基于语义的图像检索的关键是图像语义的获取.图像语义获取的现有方法都是针对一些特例图像进行的,没有考虑不同用户对图像语义和图像语义之间内在关系的不同理解.提出一种基于用户的分层语义表示模型,并阐述了基于这个表示模型构建分层语义分类器的过程:首先利用SVM通过有监督的学习,对已标注的一组样本图像进行训练,获得图像语义分类器;对于多分类问题则采用SVM二分类方法结合二叉决策树来实现;最后使用训练后的分层
虹膜识别、指纹识别、人脸识别、声音识别等生物识别技术得到了迅速发展,开展了一种新的生物识别技术研究:眼底血管骨架形状的生物特征分类和识别.采用眼底的绿光灰度图像,进行眼底血管骨架特征的提取,提出两次有限对比适应性直方均等化增强方法,增强眼底血管的形状特征,经中值滤波、二值化、骨架提取得出血管的形状特征曲线;采用基于点的特征匹配方法进行血管形状特征曲线匹配,通过实验验证眼底血管形状能代表他的生物特征
软件模式描述了被实践证明为有效的、对于不断重复的软件问题的解.在实践过程中通常需要综合使用来自于不同体系、相互关联的软件模式.所以有必要使用合理的方法组织、分类软件模式和它们之间的关系.但是,由于软件模式数量大、特征多样、描述格式不统一等原因,现有的相关研究在分类内容的系统性、分类方法的合理性等方面还存在不足之处.提出一种基于特征分析的可扩展的软件模式及其关系的分类法框架.描述了面向软件模式的功能
为了克服在苹果颜色分级中存在的速度慢、误差大等缺点,基于再现群智能的粒子群优化算法和神经计算技术,提出了一种新颖、快速的智能分级方法,即首先通过计算机视觉技术获取苹果表面颜色的色度,并提取其特征;然后采用改进的粒子群优化算法训练神经网络结构;最后用训练好的神经网络进行苹果颜色分级.实际应用表明,该方法切实可行且效果显著,不仅分级速度快,而且分级正确率高达96﹪以上。
数据挖掘的一个重要方法是采用机器学习技术产生分类器.将分类器集成到一起将会大大降低分类错误率.传统的助推方法是适合任何分类器的,而针对决策树的助推方法将进一步提高数据挖掘的分类精度.基于属性权和属性权信息增益的助推决策树算法,在提高预测精度的同时得到了可理解的规则.针对某市劳动局养老保险数据库进行了实验分析,实验结果验证了这一方法的有效性。