Web信息采集技术在纺织面料公共服务平台中的应用

来源 :东华大学 | 被引量 : 2次 | 上传用户:xionglongyan0817
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着中国纺织品出口量的扩大,中国已成为世界纺织面料的主要市场。利用互联网获取行业信息,使面料企业在信息资源的掌控中获得主动,对面料企业的发展越来越重要。中国面料企业中87.5%为中小企业,限于人员素质与资金的限制,这些企业利用互联网获取的行业信息质量不高。建设纺织面料公共服务平台是解决上述问题的有效途径。纺织面料公共服务平台整合面料工业产业链上各类资源信息,瞄准世界前沿技术,为面料企业特别是中小企业提供最新原料、生产加工、产品等信息。本论文提出了一套在互联网中按照面料相关主题进行自动提取信息并分类的解决方案,并将该方案应用在纺织面料公共服务平台中。该方案的流程如下:先利用网络爬虫将网页下载到本地服务器;再扫描Web网页源代码,分析Web网页结构特征,提取与面料主题相关的URL并抽取网页中面料主题的事实信息,将新获取URL及该事实信息保存在中间记录存储器中;最后从中间记录存储器提取出事实信息并按照预定义的分类进行文本分类。为了提高网络爬虫的效率,一方面通过协调器对网络爬虫抓取的URL按照一定规则进行调度,避免了由于网络爬虫的负载不平衡造成的资源分配不均;另一方面在扫描网页源代码获取抓取的URL的同时,根据设计的主题链接过滤/链接预测模型,对超链接进行剪切与分类,按照相关链接采集、不相关链接直接丢弃的原则进行剪枝处理,减少网络蜘蛛页面采集的工作量。经典的向量空间模型没有考虑特征项在文本集合中位置分布的不同而引起的权值差异,系统针对这个问题采用了改进了的特征项权值的计算公式,更好的体现了网页的结构特征。基于文档结构的抽取规则建立结构层次树时算法比较复杂、基于特征模式匹配的抽取由于定位主要依靠匹配来实现,抽取过程易被具有类似结构的其它数据所干扰。为了提高信息抽取的准确度与可移植性,设计了基于文档结构的抽取规则与基于特征模式匹配的抽取规则相结合的抽取规则,取得了良好的效果。传统的K最近邻分类方法在训练集数据量很大情况下,全局的最优搜索很难实现。为了加速K个最近邻的搜索,采用了一种基于K最近邻的快速文本分类方法,它能够保证在海量数据集中进行快速有效的分类。
其他文献
随着计算机网络技术和信息技术的不断发展,嵌入式系统已经在很多领域得到广泛的应用,如国防、工业控制、通信和消费电子等。由于嵌入式系统具有可靠性高、开发周期短等优点及其
针对参数摄动对控制系统的影响,以球磨机制粉系统为对象,给出了两种鲁棒控制器设计方法,并进行输出反馈控制器的设计。其中的反标架正规化设计方法(RFN)是基于矩阵奇异值分解
本文对智能仪表人机界面计算机辅助工程进行了研究。文章介绍了资源和交互模型的XML数据描述以及基于模板技术的智能仪表人机界面软件自动生成方法,并讨论了运用相关软件系统
在无线通讯接收机射频前端的电路设计过程中,借助系统仿真对电路整体性能进行验证尤为重要。为此,在仿真阶段,不仅需要建立相应的数学模型来表达每一个电路模块,而且需要模拟实际
在移动机器人的相关技术研究中,路径规划问题可以说是其中的一个重要环节,也是机器人实现智能化和自主移动的关键技术。本文围绕这一问题在以下几个方面作了研究和探讨: 首先
根据自动控制教学所面临的问题和教学改革的需要,针对教育机器人平台所具备的优势,本文提出将教育机器人平台引入到自动控制实验教学中,搭建教育机器人控制实验平台。基于该平台
冰雹是一种严重的灾害性天气,它已引起了全世界的重视。冰雹云的发生发展具有突发性,移动迅速,生命史短等特点,这为冰雹准确预报和人工防雹造成困难,因此基于多谱勒雷达的冰雹云自
血红细胞沉降率是医疗领域广泛应用的医学检测工具,用来检测产生各种炎症的疾病。魏氏法是自1924年开始应用的传统测量方法,使用大量血液以及长达一小时的测量时间。本文在对传
随着Internet的发展,网络信息化服务日益成为人们获得信息的重要途径。Web成为了Internet最流行最主要的信息服务方式,Web系统是网络化信息服务的基础,Web技术和数据库技术相结
在计算机信息处理及应用中,图像信息处理以及处理结果的应用占有十分重要的地位。当今数字图像处理成为科学研究的热点,产生了许多优秀、成熟的算法。但是在面向应用的图像处理