论文部分内容阅读
随着中国纺织品出口量的扩大,中国已成为世界纺织面料的主要市场。利用互联网获取行业信息,使面料企业在信息资源的掌控中获得主动,对面料企业的发展越来越重要。中国面料企业中87.5%为中小企业,限于人员素质与资金的限制,这些企业利用互联网获取的行业信息质量不高。建设纺织面料公共服务平台是解决上述问题的有效途径。纺织面料公共服务平台整合面料工业产业链上各类资源信息,瞄准世界前沿技术,为面料企业特别是中小企业提供最新原料、生产加工、产品等信息。本论文提出了一套在互联网中按照面料相关主题进行自动提取信息并分类的解决方案,并将该方案应用在纺织面料公共服务平台中。该方案的流程如下:先利用网络爬虫将网页下载到本地服务器;再扫描Web网页源代码,分析Web网页结构特征,提取与面料主题相关的URL并抽取网页中面料主题的事实信息,将新获取URL及该事实信息保存在中间记录存储器中;最后从中间记录存储器提取出事实信息并按照预定义的分类进行文本分类。为了提高网络爬虫的效率,一方面通过协调器对网络爬虫抓取的URL按照一定规则进行调度,避免了由于网络爬虫的负载不平衡造成的资源分配不均;另一方面在扫描网页源代码获取抓取的URL的同时,根据设计的主题链接过滤/链接预测模型,对超链接进行剪切与分类,按照相关链接采集、不相关链接直接丢弃的原则进行剪枝处理,减少网络蜘蛛页面采集的工作量。经典的向量空间模型没有考虑特征项在文本集合中位置分布的不同而引起的权值差异,系统针对这个问题采用了改进了的特征项权值的计算公式,更好的体现了网页的结构特征。基于文档结构的抽取规则建立结构层次树时算法比较复杂、基于特征模式匹配的抽取由于定位主要依靠匹配来实现,抽取过程易被具有类似结构的其它数据所干扰。为了提高信息抽取的准确度与可移植性,设计了基于文档结构的抽取规则与基于特征模式匹配的抽取规则相结合的抽取规则,取得了良好的效果。传统的K最近邻分类方法在训练集数据量很大情况下,全局的最优搜索很难实现。为了加速K个最近邻的搜索,采用了一种基于K最近邻的快速文本分类方法,它能够保证在海量数据集中进行快速有效的分类。