工业网站识别与分类系统的研究与实现

来源 :辽宁大学 | 被引量 : 0次 | 上传用户:huangxiaojie33
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
工业互联网是快速发展的互联网信息技术与传统工业生产模式相互融合的产物,工业互联网的出现,改善了传统的工业生产模式,使工业生产方式更具智能化。工业与互联网科技的深度融合给工业产业的发展带来机会的同时也使工业互联网产生了信息安全方面的威胁。工业网站是工业行业与互联网行业相结合的最直接的产物,工业网站的信息安全也是工业互联网信息安全的重要组成部分。工业网站的识别与分类对后续工业网站的信息安全防护工作以及工业互联网信息安全防护工作起到积极的作用。工业网站的识别与分类的研究是网站自动化分类研究下的更具体的行业分类研究。在目前的网站分类研究中很多方法是将网页内容看成研究的文本样本,直接使用文本分类技术研究网站分类。网站的分类区别于其他文本分类研究主要在于网站中包含着大量的链接和文本内容,包含了大量的噪声影响,因此使用网站内的文本需要技术处理优化。工业网站在特点上也有别于其他网站,有些工业网站和其他网站特点一样比如:厂商门户网站等,有一部分工业网站对应的是可登录的工业控制系统比如:数据采集与监控系统网站、分布式控制系统等。工业网站的分类研究既要根据工业行业分类也要根据网站的性质分类。本文在工业网站的识别与分类系统的研究中,根据工业网站的特点和工业行业类别特性主要实现了工业网站数据爬取、工业网站识别、工业网站行业与性质分类、数据存储和展示等系统功能模块。数据爬取模块使用聚爬虫技术,主要功能是获取工业网站数据爬取;识别和分类模块主要实现识别网站是否为工业网站,并根据所属工业行业和网站性质分类;数据存储和展示模块是对分类完成后的网站数据存储和可视化展示。在本系统的的核心模块识别和分类模块中使用了关键资源提取结合分词技术的识别方法,建立工业行业词典库结合基于特征词扩展的短文本分类方法研究,保证了工业网站的识别与分类系统的识别准确性,提高了系统的分类高效性。
其他文献
路口的协同控制方法是智能交通控制领域的一个研究重点,国内外学者已经提出了很多基于孤岛路口的交通控制算法。这些算法不能满足实时交通的需求,满足不了对路口各相位公平性
目的莲香散为广州中医药大学第一附属医院治疗细菌性腹泻的临床经验方,组方为穿心莲、苍术、木香、厚朴、干姜等药,具有扶正祛邪、行气止痛、燥湿健脾,调节胃肠气机,止泻痢等
研究目的:创伤性脑损伤(Traumatic brain injury,TBI)是是全球范围内的致死及致残的主要疾病之一,积极探索TBI后神经功能损伤的发病机制,始终是TBI研究的重点。自噬是一种生
目的:评估Dynesys动态内固定治疗腰椎间盘突出症的长期临床疗效及腰椎动力学指标变化,分析腰椎动力学指标与临床疗效的相关性,并观察Dynesys动态内固定术后邻近节段退变情况
中美农业科技推广比较南京农业大学孔有利,王荣美国农业科技成果的推广率达70%,农业科技对农业总产值的贡献在70%以上。我国农业科技成果的推广率和农业科技对农业总产值的贡献大体在
正统观念是中国传统史学中最深层的历史观念之一,研究正统论史观对于批判继承中国传统文化、构建新时代的史学,意义重大。本文把中国史学上的正统论所呈现的特征概括为传承与变
G蛋白偶联受体(GPCRs)是体内最大的蛋白质超家族,根据结构的同源性,主要分为A、B、C3族.GPCRs配体的多样性决定配体结合域的多样性.受体分子内相互作用力的破坏、质子化、构
本文探讨了分部积分法在微积分问题化归中的应用规律,对该数学方法进行了示例.
近年来,随着经济社会和生产技术的快速发展,许多新颖独特的结构被人们设计出来,而这些新颖结构由于建筑外观、功能等的要求大多属于不规则结构,这些结构的抗震问题成为结构设
随着社会的不断发展,人们对能源的需求也越来越高。化石能源是现阶段依赖的主要能源之一,但是它属于不可再生能源,在不断开采下终将枯竭,并且大量使用化石能源还造成了严重的环境问题。因此,寻找新的能源来替代化石能源迫在眉睫。其中,生物质能是一种很有前景的能源。糠醛可以由可再生的生物质原料经过酸催化后得到,但是传统生产工艺中采用无机酸作为催化剂,这种工艺存在着对设备腐蚀严重、产生酸性废水等问题。本文合成了功