协同过滤在中文维基百科类别推荐上的应用

来源 :计算机应用 | 被引量 : 0次 | 上传用户:wenge228394
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对传统人工编辑导致大量类别信息重复和不规范的问题,提出了应用协同过滤技术为中文维基百科文章自动推荐类别。利用中文维基百科中的四个重要语义特征即链入、链出、链入的类别和链出的类别来表示维基百科文章,得到与目标文章相似的前若干篇文章的所有类别后,通过查询返回的相似度值计算各个类别的权重,选择前面的若干个类别作为推荐结果返回给目标文章。实验结果表明了这四个语义特征能较好地表征一篇维基百科文章,同时也验证了协同过滤方法在中文维基百科自动推荐类别中的有效性。
其他文献
为了减少非结构化道路检测中背景噪声的干扰,提出了采用韦伯局部特征(WLD)的道路消失点检测模型。该方法利用WLD模型中的差分激励分量从复杂背景中提取图像的有效区域,并通过WLD模型中的方向分量以及线型投票模式确定道路消失点的位置。实验结果表明,该方法与具有代表性的几种方法相比运算量更小、精确度更高。
本文以85kA预焙槽为例,从铝电解槽生产成本的构成着眼,探讨了从优化工艺技术条件、强化电流强度、降低原材料消耗、燃料及动力消耗、制造费用等方面降低预焙铝电解生产成本的
文章对我国氧化铝生产工艺消耗蒸汽的高压溶出、脱硅机、蒸发器三种主要设备技术水平进行了评价,提出了进一步降低汽耗、节能增效的改进方向.
本文介绍了铝电解生产的电压、电量和电耗指标的分解方法及其应用.
本文叙述了降低80kA电解槽立柱母线压接点压降的实践过程,包括:涂导电膏,立柱母线压接点焊接铝板,涂导电膏后再焊接铝板等三种措施.阐述了每种方法的节电效果及经济效益分析.
X-射线相衬计算机断层成像(CT)通过X-射线穿过样品后相位信息的改变来得到高衬度的图像,特别适用于轻元素的成像,并且可以获得远高于传统吸收衬度CT的密度分辨率。基于光栅的微分相衬CT(DPC-CT)由于可以使用常规的X射线光源而有着巨大的临床应用前景,但DPC-CT成像的X-射线辐射剂量问题尤为突出,是其走向实际应用的瓶颈。针对上述不足,提出了一种微分相衬CT迭代图像重建算法(DD-L1),该方
汪敬熙是在白话小说产生之初开始进行小说创作的,作品不多,人也很快退出了文坛,继而主要从事科学研究工作。但鲁迅从开始就注意到了他的小说作品,在自己的文章中给予了中肯的评价
文章根据变风量风机、泵类电动机的运行特点,指出了它的节能潜力,分析了变频器应用优势,并结合实际介绍生产中的节能效益.
文章以我国2007-2018年非金融类上市公司为研究对象,研究现金持有对上市公司费用粘性的影响,以及对于产权性质不同的企业二者间影响关系的差别。研究表明:由于竞争效应的存在
在机器学习及其分类问题时经常会遇到非平衡数据集,为了提高非平衡数据集分类的有效性,提出了基于商空间理论的过采样分类算法,即QMSVM算法。对训练集中多数类样本进行聚类结构划分,所得划分结果和少数类样本合并进行线性支持向量机(SVM)学习,从而获取多数类样本的支持向量和错分的样本粒;另一方面,获取少数类样本的支持向量和错分的样本,进行SMOTE采样,最后把上述得到的两类样本合并进行SVM学习,这样来