【摘 要】
:
WEB文档聚类在新闻信息检索领域起到重要的作用。但由于新闻领域不断涌现出一些新的名词。现有的技术在文档特征抽取和权重计算、类标签生成方面存在不足,导致聚类质量下降。
【机 构】
:
北京大学数据库和信息系统研究室,北京 100871
【出 处】
:
2007年全国网络与信息安全技术研讨会
论文部分内容阅读
WEB文档聚类在新闻信息检索领域起到重要的作用。但由于新闻领域不断涌现出一些新的名词。现有的技术在文档特征抽取和权重计算、类标签生成方面存在不足,导致聚类质量下降。本文提出一种基于网络词典的后缀树聚类算法,利用网络词典来识别新的名词,排除干扰因素;在后缀树聚类计算聚类分数时利用网络词典设置词语权重,提高聚类质量;聚类结果描述利用网络词典确定聚类标签,标志聚类话题的基本类别。这种方法在新闻领域取得了很好的效果。
其他文献
北京医学院附屬人民医院病案室,是今年一月间中央卫生部举行的授奖大会上受到奖励的五个先进医疗单位之一。病案室的同志們創造性地建立了一套科学管理病案的方法,为提高医
网络新概念的发现和识别是信息安全领域的一个基础技术,它可以网络热点信息挖掘等应用提供底层支持。通过合理地利用标引信息,算法在速度上可以满足网络海量信息的要求;为了
本文提出了一种基于内容分析的作弊评论识别方法,该方法充分利用了作弊评论的多种重要特征。在Blog作弊评论识别的初步实验中,识别准确率达到93%,显示了该方法的有效性。和其
大花蕙兰是洋兰中健壮易养的兰花。耐寒性强,一般家庭即使无加温条件也能栽培。而且,大花蕙兰花期长,只要抓住栽培要点,就能让它很好地开出花朵,因而广受欢迎。大花蕙兰有大
已有基于内存的频繁模式发现算法需要的物理内存是语料规模的几倍甚至几十倍,本文提出一种大规模语料频繁模式快速发现算法,通过采用合适的策略将语料划分为若干子语料,对每
Blog作为一种新的网络传播方式,迅速兴起和发展,已经越来越受到用户的关注。因此,迫切需要找到一种自动将Blog网页区别于其它web页面的方法,以便针对Blog语料进行内容抽取、
近年来,乳腺癌治疗理念更加人性化、个体化。但以往谈论的个性化更多的是体现在分子分型基础上的内科治疗选择,化疗、内分泌治疗、靶向治疗、基因治疗的长足进步为此提供了良
本文通过对自然文本统计模型和特性的分析,指出隐藏消息后可能对文本统计特性带来的变化,并提出了基于AdaBoost的通用检测算法。文章抽取文本的5个基本统计特征量为分类特征,
无监督的聚类算法在中文网络信息处理中有着广泛的应用。由于存在大量的中文词语,适当的特征提取算法,可以降低计算资源消耗,提高聚类质量。但当前使用的无监督特征选取算法
在目前的Web信息提取技术中,很多都是基于HTML结构的,由于HTML结构的经常变化,使提取模板需要经常更新,而提取模板的更新需要很多领域知识。本文提出一种基于显示属性的Web信