面向大数据实体识别的超图分割算法

来源 :小型微型计算机系统 | 被引量 : 0次 | 上传用户:lmtc5238
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前信息系统中存在海量复杂异构数据,极大地降低了数据可用性.为有效地"清洗"数据、提高数据实体同一性,借助云计算平台Hadoop设计并实现了基于超图模型的实体识别算法.算法共分为数据预处理、构造超图模型和实体识别三个阶段:在预处理阶段,通过建立属性-值倒排索引表、挖掘频繁项集来对数据进行初步处理;在构造超图模型阶段,改进超边权重的定义,建立超边带权重的超图模型,将所有数据转化为超图模式;在实体识别阶段,改进超图分割算法并基于云平台来完成对同一实体的识别.在Hadoop平台上对真实数据集的实验结果表明该算法在实体识别方面具有良好的准确性和高效性.
其他文献
从我国农村经济的发展来看,专业合作经济组织有着其不可取代的作用。本文从专业合作经济组织的定义出发,在分析现有专业合作经济组织情况以及专业合作经济组织对农业产业结构
目的采用弥散峰度成像(DKI)及低频振幅(ALFF)技术观察全面特发性癫痫(IGE)患者白质纤维束以及脑功能异常的脑区。方法选取符合纳入标准的IGE患者(病例组,n=24)及与之相匹配的健康志愿
随着我国经济的不断发展,所有制结构的深刻变化,市场经济主体日趋多元化,我国纳税人数量大幅增长,税收收入也大幅度提高.但我国实际税收入与应征收入还存在较大的差距.税收流
采用定量杀菌试验方法,对二元瓶装的四环牌过氧乙酸杀菌效果和空气中自然菌杀灭效果进行了观察.结果,以含50 mg/L过氧乙酸水溶液对布片上金黄色葡萄球菌作用3 min,对大肠杆菌
目的探讨慢性丘脑梗死患者全脑灰质体积改变及与认知功能减退的关系。方法对26例慢性丘脑梗死患者(梗死组)和29名健康志愿者(对照组)进行神经心理学评价及MR扫描。分别计算全脑灰
中国天然气市场已进入高速发展阶段,面对天然气管网的多气源供应格局,如何确保多种气源在同一管网中稳定、安全、可靠地输送,是国内外亟待解决的技术难题,本文结合安徽省天然
文章以企业财务报表粉饰的原因分析为切入点对其现阶段存在的财务制度进行分析,并在此基础上提出有效对策来防范企业财务报表的粉饰问题。
患者男,52岁,因“左侧面部疼痛3天,加重伴麻木1天”入院。专科体检未见异常;实验室检查:外周血淋巴细胞计数0.52×10^9/L,单核细胞计数0.09×10^9/L,嗜酸性粒细胞计
目的本文主要探讨小儿哮喘采用糖皮质激素吸入治疗效果。方法选取2015年4月至2015年10月我院儿科门诊治疗患儿40例,随机分组,对照组20例,采用小儿哮喘常规治疗;对照组20人,在