【摘 要】
:
海量增长的Web资源已经成为企业获取竞争情报的重要来源。Web资源具有半结构性、离散性、实时性和异构性等特点。如何从Web资源中获得特定主题的信息,并及时地向企业提供有价
论文部分内容阅读
海量增长的Web资源已经成为企业获取竞争情报的重要来源。Web资源具有半结构性、离散性、实时性和异构性等特点。如何从Web资源中获得特定主题的信息,并及时地向企业提供有价值的情报,已经成为一项重要的研究课题。本文的研究内容是面向企业竞争情报的、基于Web的主题搜索。本文侧重于主题搜索的核心模块——主题网络蜘蛛的设计与实现。主要工作具体如下:主题网络蜘蛛:综合分析了现有的网络搜索算法,采用基于非贪婪策略的遗传算法来改善信息采集的全局收敛性。Web文档分析:将Web文档转换为对应的文档树,通过遍历快速而有效地获取相关信息;对网页内容进行正文提取和文本分词之后,采用改进的特征项权重算法建立特征向量。主题相关度评价:对网页文本进行主题相关度评价的基础上,结合其锚文本、自身字符串以及所处的网页环境对页内链接进行主题相关性计算。在此基础上,本文描述了竞争情报系统的总体设计及主题搜索的详细实现过程。
其他文献
在工业现场领域,已经投入使用的嵌入式设备的软件需要经常更新,这些嵌入式设备不便拆卸和不作为单独个体接入互联网的特点,使现有的JTAG接口升级方法和互联网远程升级方法都
利用局部视觉特征来解决计算机视觉中的物体识别问题是当今研究的一个趋势。其中关键问题是如何利用好局部视觉特征,使其能够如实地反映图像语意。另一方面,机器学习领域中概
多描述视频编码是一种在非可靠分组网络和无线信道中提高视频流抗分组丢失、抗误码性能的有效方法。H.264/AVC是目前最新的视频编码标准,不仅具有很高的压缩效率,还提供了多
近年来,多尺度几何分析在图像分割中的应用越来越多地被关注,其中Contourlet在处理图像中的奇异性特征方面具有较好的性能,但是Contourlet变换仍然存在缺少冗余性和不具备平
工业缝纫机零部件的运动轨迹数据可用于数据化对比分析实际行为与设计行为之间的差异,指导缝纫机产品的研发,但该数据难以通过人工观察和记录的方式获取。图像处理方法为此提供
当前,我国是世界上钢铁生产量和消费量最大的国家。但我国钢铁企业物流技术相对落后,极大制约了我国钢铁事业的发展。钢铁工业中,在物流方面起重大作用的是铁水运输,铁水运输
图像分割是从图像处理到图像分析的关键技术。几何活动轮廓模型是为解决图像处理和计算机视觉领域广泛存在的图像分割问题而提出来的。梯度函数是在研究几何活动轮廓模型时将
无线mesh网络是一种动态自组织、自配置的无线网络,具有结构灵活、维护方便、良好的健壮性和可靠的服务覆盖区等优点,成为目前研究的热点。性能测试平台是研究无线mesh网络的
矿井机车无人驾驶系统的研发与使用,能够有效提升矿井生产效率及自动化水平,并减少井下作业人员数量,从而降低因其它矿井事故引发的人员伤亡,具有巨大的经济效益和社会效益。
军用GIS大都需要高精度的矢量地形图库作为支撑,而基础矢量地形图是在原有纸质地图的基础上,通过扫描数字化及矢量化等手段来获取的。纸质地图的扫描数字化通常采用大幅面扫