面向实体识别的聚类算法

来源 :软件学报 | 被引量 : 0次 | 上传用户:windcode2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实体识别是数据质量的一个重要方面,对于大数据处理不可或缺.已有的实体识别研究工作聚焦于数据对象相似度算法、分块技术和监督的实体识别技术,而非监督的实体识别中匹配决定的问题很少被涉及.提出一种面向实体识别的聚类算法来弥补这个缺失.利用数据对象及其相似度构建带权重的数据对象相似图.聚类过程中,利用相似图上重启式随机游走来动态地计算类簇与结点的相似度.聚类的基本逻辑是,类簇迭代地吸收离它最近的结点.提出数据对象排序方法来优化聚类的顺序,提高聚类精确性;提出了优化的随机游走平稳概率分布计算方法,降低聚类算法开销.通过在真实数据集和生成数据集上的对比实验,验证了该算法的有效性.
其他文献
文章以问卷调查的形式,对广东粤西和青海西部柴达木地区城乡少年儿童在课外阅读兴趣、课外阅读能力等方面进行比较分析,以此了解东西部欠发达地区城乡少年儿童阅读现状差异,
《中共中央国务院关于建立国土空间规划体系并监督实施的若干意见》明确提出转变管制思路、创新管制方式、统一管制标准,运用多种手段对全域国土空间实施管控。市级国土空间用途管制承担了宏观政策具体化的重要功能,是实现统一管控、政策落地实施的关键环节。文章分析新时期市级国土空间用途管制的发展方向,探索用途管制方法与策略,以柳州市为实践对象,遵循"效益最大化"管制目标,从宏观、中观和微观三个层级实施多手段管制方
当前城市管理存在着管理体制、管理信息技术等诸多问题,这与和谐社会倡导的新型城市管理理念不相符合,在和谐城市管理理念下,出现了一种新的管理模式,即城市网格化管理,其具
为了以规范的网络期刊出版方式更快更好地确立作者的科研成果首发权,全面提高学术论文的传播效率和利用价值,我刊已与《中国学术期刊(光盘版)》电子杂志社有限公司(简称电子
电荷耦合器件(CCD)具有灵敏度高、信噪比好、光谱响应宽等优点,被广泛应用于遥感、制导、安防、摄像等国防与民用领域。CCD工作于光学镜头焦平面处,镜头的巨大光学增益使CCD
对营造在福建省邵武市11 a生杉木无性系试验林的树高、胸径、材积和木材基本密度这4个主要生长和材质性状进行测定和分析,并采用指数选择法进行优良无性系选择。结果表明:4个
李品金,男,1964年出生,主治医师,湖北省黄冈市人,1979年毕业于湖北黄冈市黄州区卫生学校。从1978年至今一直在湖北省黄冈市黄州区禹王办太平市村卫生室从事乡村医生工作。该卫生室
对辽宁某低品位铁磷矿磁选尾矿进行正浮选以回收其中的磷灰石。将十二烷基磺酸钠、十二烷基硫酸钠、石油磺酸钠、塔尔油、油酸皂、氧化石蜡皂等按不同配方复配得到新型捕收剂
2014年1月6日,经国务院同意设立贵安新区(以下简称新区),提出要把新区建设成为“生态文明示范区。”习近平总书记2015年6月17日在视察新区时指出:“新区的规划和建设,一定要
报纸
本文以企业战略目标为导向,采用因子分析与逐步回归分析方法,探讨生物制药上市公司资产结构与财务绩效的关系。结果表明:在资产总体规模方面,资产总规模和财务绩效呈显著的正相关