基于文本挖掘的电子信息产品TBT预警研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:littleycy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着贸易国际化进程的加快,传统的限额、关税等壁垒逐渐减弱,关注健康、生命和环保的技术性贸易壁垒(Technical Barriers to Trade,TBT)逐渐加强,对进出口贸易产生着深远的影响。由于 TBT的原因,我国出口贸易每年都遭受巨大的经济损失,而且还在逐年加重。因此,为了合法、有效地保护我国产业和企业的正当权益,维护公平竞争,及时收集、跟踪国外TBT信息,建立TBT预警机制,将损失降到最低,已经成为我国出口贸易亟待解决的重大问题。   本文从信息获取、指标体系建立、常用预警方法以及预警模型等方面对当前TBT预警研究现状进行分析和综述,对文本挖掘的常规阶段和流程进行阐述,对文本聚类的常用算法以及聚类中的特征选择算法进行系统介绍和论述;在此基础上,结合TBT预警的基本原理,从网络信息获取和信息处理两个角度进行实验分析,引入基于本体的主题爬虫(Focused Crawler),构建基于 SOM(Self-Organizing Feature Map)的两阶段文本聚类模型,将信息获取和信息处理有机联系在一起,对TBT预警研究有一定的借鉴意义。   本文的主要成果有:   1.在信息获取方面,利用如今在信息搜索领域有重要作用的爬虫技术,引入作为第四代搜索引擎研究热点的主题爬虫,建立电子信息产品领域本体,结合向量空间模型(Vector Space Model),使用Heritrix的扩展定制类从海量数据中筛选主题相关数据信息,从国外网站抓取与电子信息产品领域相关的网页。实验证明基于本体的主题爬虫能够抓取与预设主题相关度较高的网页,在节省网络资源的同时提高抓取效率,达到获取大量主题相关新闻报道的目的,也为下一步研究奠定了良好的基础。   2.在信息处理方面,以主题爬虫获取的网页文本信息作为数据源,构建基于 SOM的两阶段文本聚类模型;依据网页文本数据的结构特点,提出改进的TFIDF(Term Frequency& Inverse Document Freqency)算法,并应用于两阶段聚类的中间环节,对高维的特征向量空间进行降维,以提高聚类的准确性和高效性,最后通过MATLAB进行建模仿真,给出TBT走向的预测分析。
其他文献
“没有缘分,我走不上青瓷之路,没有缘分,我也不会将青瓷坚持至今;没有缘分,我更不会在青瓷上取得现在的成就。”中国工艺美术大师毛正聪将自己与青瓷之间,用简单的“缘分”两
记者在采访过程中要不要做笔记?仿佛听到过两种截然不同的说法,有人认为最好的记者在采访中是不做笔记的,有人则认为最好的记者是应该尽量做笔记的。这两种说法,都有一定的
现有的移动商务接受研究普遍倾向于将移动商务作为一个整体笼统地研究,缺乏对不同类的移动商务应用的接受问题有针对性的考虑。交易类移动商务在3G环境下,增加了几项以往不具
说话写文章,总要事先想得周密些,使别人一听或一看就知道是什么意思。如果说的话或写的文章,语意含糊不清,先后说法自相矛盾,别人就会听不懂、看不懂或发生误会,这就犯了“
山东青岛日报和邹县大众报,分别在5月8日和21日,刊登了来自南京部队龙潭83454部队政治处杨某写的同一篇报道:战士孙乐林危急关头救少年,荣立二等功。奇怪的是,报道中对这位
近年来,国家和各级地方政府都加大了对科技的投入,地方政府实施的科技计划项目逐年增加。科技计划项目绩效评价是科技计划项目管理的重要组成部分,是推动国家与地方科技持续健康
从20世纪60年代数据库技术出现至今,数据库的发展经历了很多形态,如文件管理、层次和网络数据库、关系型数据库、面向对象的数据库、关系一对象型数据库等。在这些历程中,数据库
继1981年《今日谈》第一集出版之后,第二集将于五月份出版。《今日谈》是人民日报的一个言论专栏。创办三年多来,发表短文800多篇,受到读者的欢迎和支持。《今日谈》第二集
低碳经济已成为缓解全球气候变暖和实现可持续发展必由之路。目前,我国已成为全球温室气体排放第一大国,同时我国又处在高速工业化和城市化进程当中,我国面临着巨大节能减排
沈阳科技报在去年大力加强科技新闻报道中,注重提高经济效益和突出沈阳的地方特色,使报纸发挥其独特的宣传作用。沈阳市工业基础较好,科技力量雄厚,全市共有9万多名科技人员