分类加权的TF-IDF的网页分类算法

来源 :数码世界 | 被引量 : 0次 | 上传用户:fllmn2585
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网页分类算法是目前比较热门的研究课题,目前已经有许多网页分类算法,其中TFIDF算法是一种用于信息检索与数据挖掘的常用加权技术,本文通过TFIDF算法提取了每个分类下的具有高区分度的特征词,在网页分类时通过找出其中最能代表该网页的词素,依据该词素的类别信息即能对网页进行分类。由于TFIDF算法中词频计算未考虑网页结构信息,因此在本文中对词频计算进行了改进,通过对网页结构分类,计算词素出现在不同分类下的权重,达到对网页信息的合理利用。 Web page classification algorithm is a hot research topic at present. There are many web page classification algorithms, among which TFIDF algorithm is a common weighting technology used in information retrieval and data mining. In this paper, The distinguishing feature words can be classified according to the category information of the morpheme by finding the morpheme most representative of the web page when the web page is classified. Since the word frequency calculation in TFIDF algorithm does not take into account the information of webpage structure, we improve the word frequency calculation in this paper. We classify the webpage structure and calculate the weight of morpheme under different classification to achieve the reasonable utilization of webpage information.
其他文献
目的 应用扩散张量纤维素成像(DTT)技术确定钩状束、前连合、额枕下束和视辐射的三维关系,及其解剖定位标志.方法 研究10个成人尸体头颅标本,观察和测量:岛叶、岛阈、下限沟
期刊
期刊
目的 构建进口食品中化学性危害物质风险分级指标体系,为我国进口食品风险管理提供技术支持.方法 采用文献法和专家咨询法初步拟定16个风险分级指标,应用改进的德尔菲(Delphi
目的 探讨脾切除术后意外脾种植的影像学表现,提高其诊断正确率.方法 回顾性分析我院10例经手术病理或穿刺活检证实的脾种植患者的影像资料,结合文献探讨其影像特点.10例中7
本系统采用飞思卡尔公司的MC9S12XS128单片机作为主控制器,设计出一套智能家居控制系统.该系统由光敏电阻模块,LCD显示模块,键盘模块,压力传感器,摄像头等组成.通过单片机的
患者男性,51岁.上腹部胀满不适1个月.其发生与饮食及体位等因素无明显关系.无恶心、呕吐、寒颤、高热、腹泻、血便及血尿.既往无外伤、肝炎病史,无疫区、疫情接触史.入院查体
期刊
飞机的飞行理论正在不断地进步,利用现代控制理论对其进行优化是极为重要的。本文通过对飞机控制理论的分析,结合飞机的控制结构,采用遗传算法对其进行优化,并对其发展进行了
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
期刊
期刊