基于结构语义熵的互联网商品信息抽取技术研究

被引量 : 0次 | 上传用户:leolee
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前网络商品发布量和交易量迅速膨胀,但是消费者对互联网的“信任和安全”却在不断下降。针对这一矛盾,复旦大学软件学院电子商务研究中心开展了对互联网商品监测技术的探讨,并就其中的关键问题——互联网商品信息抽取进行了深入的研究。目前网页抽取有很多种方法,但其中大部分都由人来标记抽取结果,一旦减少人为参与,信息抽取准确率也会随之下降,另外许多方法不能适应网页的变化,一旦页面更改,就需要重新构建页面信息抽取的包装器。针对上述问题,本文提出了基于结构语义熵的网页识别和抽取算法。该算法利用了网页结构,通过计算商品信息的聚集程度,可以实现页面主体部分的识别。文章首先对目前互联网商品信息发布情况和特征作了调查,并根据这些特征构造出了适用于商品信息抽取的语义词典,在语义词典知识表达方式的设计中借鉴了本体的知识表达方法(如各种关系的定义),该词典可以帮助在页面中定位到那些用户感兴趣的商品信息和帮助判别商品种类。在此基础上,结合网页结构和商品的特征信息,利用结构语义熵的商品信息抽取算法,识别出页面主体部分,从而实现自动的商品页面识别与抽取。该算法可以很好地与元搜索技术、网络爬虫等技术结合,使商品信息抽取过程实现自动化,包括新网站的发现、页面的自动获取,页面识别和信息抽取等,大大降低了信息抽取过程中的人工干预程度。文章以药品监测系统为背景,展示了该框架在实际系统中的具体应用。通过该算法框架的应用可以极大地提高商品信息抽取的自动化程度和覆盖面,为规范与全程在线监测互联网商品发布信息,保障互联网安全在线交易,提供了技术上的可行性。通过结合特定行业或领域的特点,进行一定范围和层次的个性化定制工作,即可推广应用到特定行业或领域,具有广阔的产业化前景。
其他文献
目的:评估国产微型钛钉种植支抗即刻负载稳定性.方法:随机选择犬下颌骨的一侧为实验组即加力组,另一侧为对照组即不加力组,植入国产微型钛钉各两颗.实验组钛钉间施力200克.三个
目的探讨复方血栓通胶囊在治疗黄斑性病变出血性病人的临床效果。方法回顾性分析我院2012年4月至2014年3月收治的93例黄斑性病变出血性患者的病史资料。结果 93例患者应用复
哈密香山铜镍矿发现于上世纪80年代,该矿位于新疆哈密市地区东南侧区域上,距离哈密市130公里处,区位交通非常便利,是新疆乃至全国的重要铜镍矿藏资源基地。该矿位于东天山土
基于工业机器人机械本体模块化设计思想,以机器人的结构功能分解为基础,创建了标准机械结构模块库并实现了模块的自动装配。将人体手臂参数作为标准结构模块缩放的内置参数,
目的观察CO2气腹的不同腹内压(IAP)对肝细胞凋亡的影响。方法 24只雄性健康家兔,体重3.0~3.5kg,根据CO2气腹的IAP随机分为4组:0mmHg组(C组)、10mmHg组(I组)、15mmHg组(II组)和
目的探讨老年重型胰腺炎(SAP)患者机体凝血和抗凝系统的变化情况。方法轻型胰腺炎(MAP)、SAP、健康者各40例编入三组,均于入组后首个清晨取空腹血液2ml进行凝血功能检测,比较
1992年9~12月,对我省8个县(市)共计960户常住人口进行了第三次营养调查。结果表明,我省人均营养素的供给充足,膳食结构比较合理。与1982年调查结果比较,10年间我省食物结构有较大的变化,但仍存在营养供
随着我国经济建设的不断发展,旧城区的规划和使用功能已不能满足社会经济发展的需要,拆除旧城区的建筑是势在必行的事情,这必须要对旧城区重新进行规划建设,以适应现代化城市
随着通信、计算机、传感器等科学技术的迅猛发展,车用网络(VANET)正在不断改变着人类认识世界的方式,广泛应用于车辆预警、智能交通等诸多领域。车用网络利用车辆上的电子设
我国目前正处在剧烈的社会转型期,社会矛盾导致的群体性突发事件数量不断增加,规模不断扩大,所以,如何有效地预防和应对群体性突发事件对于保障社会的安定和谐有着积极的作用。本