编辑距离相关论文
随着信息技术的快速发展,在保护数据隐私的条件下进行多方合作计算越来越普及,安全多方计算已成为解决这类问题的核心技术。在科学研......
为将指挥员需求语句中的实体指称准确链接到知识图谱中的标准化实体节点上,提出了基于改进编辑距离的军事领域实体链接方法。通过对......
为提高继电保护智能运维信息采集配置的效率及正确性,提出一种基于知识图谱的智能运维系统信息采集自动配置技术。基于继电保护相关......
20世纪50年代以来,互联网技术逐渐走向成熟,人类更多得选择运用互联网进行数据存储与查询,这样极大得提高了工作效率。因此网络知......
研究连锁故障发展机理以及辨识故障演化路径中的关键线路,对揭示电力系统薄弱环节、降低连锁故障风险具有重要意义.为此,文中提出......
设备备件库存管理是企业特别是制造业企业经营的重要工作之一,但设备备件管理的诸多问题一直困扰着企业经营者,例如,备件库存系统......
Stack Overflow是一个计算机编程领域的问答社区,其中的文本蕴含大量有价值的信息可供挖掘,但由于其本身存在大量的错误词汇,给文......
重复数据和相似数据的处理是数据清洗的一项重要内容.针对招投标项目公告数据集存在大量重复信息的情况,结合该数据集为中文字符集......
垃圾短信发送者会不断尝试修改垃圾短信内容以欺骗过滤系统,导致识别准确率降低,为此提出一种基于自分簇自学习算法的识别方法.首......
本体融合已经成为学科领域知识图谱的重建和知识共享的重要途径,为解决本体融合领域缺乏标准融合框架问题,提出一种基于国际标准MF......
按照元组描述的实体对其进行组织和查询处理是一种管理劣质数据的有效方法。考虑到同一个实体的同一属性存在多个描述值,因此基于实......
会议
为了得到更好的画像石裂缝区域的检测结果,提出了一种基于编辑距离的画像石裂缝的检测算法。将图像分为若干个大小相等的区域;为了......
为解决传统光谱匹配算法对同色系不同颜料物质光谱数据匹配识别精度不高的问题,提出了一种自适应阈值的编辑距离光谱匹配算法;研究......
煤矿安全是煤矿生产的第一要务,但是由于煤矿生产环境复杂,煤矿安全事故时有发生。灾难发生后对人员的精确定位是救援的关键,因此......
针对Web安全问题,目前最常用的技术是采用Web漏洞扫描系统进行检测。网络爬虫是Web漏洞扫描器重要组成部分,负责抓取站点的页面信息,......
该文研究的是多模板的实时状态下的音频检索.研究的切入点是电视广告,研究的目标是要建立一个基于音频信息检索的电视广告监播系统......
随着计算机的计算速度、存储容量的不断提高,基于实例的机器翻译(Example-Based Machine Translation,EBMT)技术研究越来越受到研......
数据仓库中数据质量问题直接影响后续的统计、分析和决策。ETL工具是提高数据质量的关键一环。传统的ETL产品和现有的原型系统对数......
该文的主要研究内容与贡献是:对带有换位操作的近似串匹配问题进行了讨论,提出了一个基于过滤思想的快速的串行算法.理论分析表明,......
随着基因测序技术和人类基因组计划的发展,人们积累了越来越多的生物序列信息.如何分析这些生物序列,从中找到人类和其它生物的遗......
该论文描述了一个专为松下网络OCR引擎开发的OCR后处理系统.这个OCR引擎使用的是比较新但还不成熟的技术,现在它的词层识别正确率......
随着基因测序技术和人类基因组计划的发展,人类已获得了大量的生物序列数据,并且其积累速度还在飞速增长。生物信息学作为一个新兴学......
Kukich从智能处理技术的角度将英文的文本错误分成两大类:孤立词错误(isolated-worderror)和上下文依赖词错误(context-dependentwo......
本文从研究生物序列的局部相似性查询入手,提出了一种基于块排序结构压缩索引结构的生物序列查询算法。一方面降低了索引的空间要求......
在数据挖掘及其它研究领域,k-近邻算法k-NN是一种广泛用于不同分类用途的算法。然而,k-NN倾向于处理数值类型的数据集,这就限制了它用......
起源于哲学的本体作为一种能在语义和知识层次上描述概念的建模工具,可有效地解决知识工程中知识共享和重用两大问题。近几年来,随......
目前许多信息都以文本的形式存放在计算机中,所以基于文本的信息检索技术,如最长公共子串匹配问题一直是文本管理、程序分析等领域......
随着信息技术的发展和日益增长的对安全的需要,基于生物特征的身份识别技术在近年来有了迅速的发展。人们正在研究和使用的生物特征......
本体在语义Web和其它很多领域都有着广泛的应用,它是一种用来描述概念以及概念和概念之间关系的模型,自提出以来就引起了国内外众......
图作为一种结构化的信息表示形式,在模式识别领域中日益得到广泛重视。图嵌入方法结合统计学习理论中向量空间的优势,将图嵌入至一......
经过多年的信息化建设,许多组织机构在不同历史时期建立了各种不同的管理信息系统,积累了大量的历史数据。但由于这些系统设计之初没......
字符串相似性搜索在众多的领域具有广泛的应用,例如:数据清洗、数据集成、拼写检查、抄袭检测、生物序列分析等。到目前为止,有很......
学位
网页浏览和搜索引擎的关键字检索是人们从Internet上获取信息的传统方法,其局限性主要表现在:网页浏览方式很难在Internet上定何特定......
随着互联网信息以指数级别增长,目前数字信息已呈现数量庞大、类型繁多、更新迅速等发展趋势。根据Forrester Research的统计资料,......
Web已经成为人类获取信息和得到服务主要方式之一,Internet技术的高速发展使它成为了一个庞大的知识库,但同时也带来了许多问题。......
伴随着信息时代信息量的膨胀,无论是网络信息、观测数据以及生物信息都存在着大量相似程度很高的数据。然而传统的压缩方法对于这......
信息产业的飞速发展,使得信息量飞速膨胀,面对海量的数据信息,怎样从中找到需要的有效信息,成为人们研究的热点问题。而随着数据的......
相似字符串查找在现实生活中的应用非常广泛,例如相似网页检测、数据清洗、电商网站的推荐功能、蛋白质功能预测等。相似字符串查......
相似连接具有广泛的应用,如,合并检测,模糊的关键字匹配,数据融合,数据清理等。相似性度量方法有许多种,如Jaccard距离、Cosine距离、编......
随着信息技术的迅速发展,大量的数据不断涌现,不可避免的会引发质量问题,数据清洗是提高数据质量的重要手段,而相似重复记录检测是数据......
基于指纹特征的文本复制检测技术虽然可以快速识别抄袭现象,但是存在指纹特征过大,指纹特征选取复杂,相似度计算效率低等问题。为......
线路跳闸作为配电网的一种频发故障,其所积累的大量跳闸填报文本目前主要采用人工处理方式,效率低下且主观因素强.针对这一问题,以......
起源于办公自动化的工作流或者(业务)流程技术在信息系统中扮演着重要角色。随着云计算与大数据的兴起,以Web服务组合和云科学工作......
随着经济社会的发展,水务行业的受关注度不断提升,行业技术需求也随之提高。目前北京市水务相关部门内部系统包括大量数据库数据,......
伴随着互联网技术的发展,数据分析在各行各业中起到了举足轻重的作用。在数据分析过程中,如何获得一个完善、稳定的数据源已逐渐成......