TrigSigs:一种有效的非结构化记录关联合并算法

来源 :浙江大学学报:工学版 | 被引量 : 0次 | 上传用户:oraclenienan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了解决从网络数据源提取的非结构化数据的处理问题,提出一种基于触发对的聚类算法TrigSigs,利用触发对挖掘非结构化数据中隐含属性间的关联关系作为辨别实体的标志.该算法能够聚集对辨别实体起到关键作用的特征组合,过滤噪音词汇,并且根据辨别实体的分辨力,为每个特征词汇赋予合理的权重,使记录的特征向量对辨别实体更具代表性,最终提高聚类结果的细粒度,很好地解决了非结构化数据的记录关联合并问题.实验结果表明:该算法可以过滤绝大部分噪音词汇,并且根据词汇的分辨力合理分配权重,使最终聚类结果的准确率有很大的提升.
其他文献
节约型生态园林的建设可促进城市绿化发展,为居民提供休闲场地。文章对节约型生态园林进行概述,并从科学性、因地制宜、环保性等三方面对节约型生态园林景观设计原则进行分析
为了合理地进行产品族规划和开发,提出了基于本体表达的客户需求拓展分析模型,进行客户需求的挖掘和预测.采用基于本体的全息语义方法表达客户需求以及需求之间的关系.根据客户现
为了减少目前大多数问句分类算法由于采用了布尔特征模型所导致的特征信息损失,提出了一个基于网络和聚类技术的加权特征模型来表达问句的特征空间.不同于以往采用的布尔特征
通过引入标准神经网络模型(SNNM),为不同的递归神经网络(RNN)提供了一个统一分析框架.针对时滞SNNM的鲁棒渐进稳定和指数稳定问题,应用Lyapunov稳定性理论和S方法推导出基于线性矩阵
为进一步提升服务组合性能,提出将词法多重散列与包容语义相结合的快速服务查找法.该方法有如下特点:将服务描述模型分解为不同粒度的词法和语义子块,同时将服务查找过程转换
为研究季铵盐改性对蒙脱石的结构及抗菌性能的影响,分别采用十八烷基三甲基氯化铵(OTAC)和双十八烷基二甲基氯化铵(DODAC)对蒙脱石进行插层改性,并分析了蒙脱石的d001层间距及抗菌
根据无线传感器网络中每个节点到汇聚节点的角度不同,提出一种新的角度路由协议,通过仿真和理论推导,给出了当源节点与目的节点距离固定时以平均路径跳数为指标的协议多跳性能,表
为了研究跨临界CO2压缩喷射系统的稳定性,在自行搭建的实验台上进行了改变工作环境参数及调节节流阀开度对系统稳定性影响的实验.通过分析实验工况下工作流体压力、引射流体压
为了研究翅片结构及其几何参数对车用进气中冷器热力性能的影响,采用三维k-ε湍流模型,应用块结构网格生成技巧,融合流固耦合研究方法和薄壳导热模型数值模拟18个具有不同结
现有自动配棉方法求解的问题规模不大或者不易找到最优解,为此建立了一个多约束条件下自动配棉问题的数学模型.基于基本遗传算法,采用罚函数法处理多个约束条件,通过对种群进化程