大规模网络数据中的平行句对抽取

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:yuqiang521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文由方法和实现两个不同角度给出了一套由全网网络数据源环境中抽取平行句对的方法。从句对挖掘算法角度上,将全网网络数据源分为对照网页和平行网页两种形式进行了网页中的平行文本段的抽取,对照网页部分依次使用基于词典的双语页面过滤和自适应模板匹配的方法进行文本段抽取,该部分达到了81%的召回率,平行网页集合则先根据URL字符串相似匹配获得平行网页对候选,再从配对网页中通过节点匹配方式进行平行文本段的挖掘,该部分数据召回率达到75%。后又通过句子切分和句对齐将平行文本段转为了平行句对,通过本文给出的句对整理方法对结果句对进行整理,并根据自定义的平行句对质量评价算法对句对进行了评分和过滤,最终得到非重复的结果平行句对约660万。该数据由随机抽样进行人工评价,覆盖率超过96%,可用性超过93%。从句对挖掘流程角度上,给出了两种网页集合分别的分布式方案,用于应对算法本身应对大规模数据困难的问题。给出了对照网页的分片处理方法,并给出了平行网页采用的子集分片挖掘方法,提出了可行的应对大规模数据处理及数据增量更新的方案。最终在约75亿网页数据集,进行对照数据部分抽取运行时间约48小时,平行数据部分抽取时间约24小时。本文提出了完整的由对照网页和平行网页两种混合的网络数据源进行平行句对抽取的方法,在实际条件下进行应用,并在可行时间开销内获取结果句对。通过对流程中增量更新的实现,完成了多数据集合并和网络新数据源的抽取问题。所提出的抽取流程支持大规模数据的抽取,同时支持增量更新,保证了该方法实践可用性。最终句对质量评价结果证明最终结果句对可用。
其他文献
虚拟心脏是综合运用计算机强大的计算能力以及图形显示能力,对真实心脏的解剖结构、电生理等方面的特性进行仿真。虚拟心脏电生理仿真数学模型由常微分方程组构成的心肌细胞
在分布式的数据库系统中,一般情况它的最大特征是存在数据冗余。分布式数据库因物理位置不同,存储设备比较分散,要保证数据的完整性和可信性,降低数据库风险性,大多通过冗余
宽视角且超分辨率的图像能够为许多科研领域提供更为精确的实验数据,但是受到图像采集设备的限制以及成像技术不成熟而无法获取满意的结果,因此图像拼接成为解决这一技术难题
随着无线网络在家庭自动化、交通控制、医疗保健、环境监测、战场探测和农业等方面的应用,因为网络节点是由电池供电,所以节点自身存在的能量几乎成为网络生命周期的瓶颈问题
人工智能的蓬勃发展,让机器人走进了我们的生活。机器人不仅可以满足工业需求,也可以应用在艺术生活中。目前,机器人可以进行漫画、素描、油画等艺术创作。而简笔画利用点、线等
本论文选题来源于“十一五”国家科技支撑计划课题“山区信息化技术研发与集成示范”。论文以宁夏彭阳县小流域为研究区域,设计并实现了基于GIS的小流域综合治理辅助信息系统
选播是IPv6中新定义的一种标准通信模式,它能使得用户通过一个选播地址就可以访问到该地址所标识的一组服务器中对用户来说是“最优”的一个。选播通信可以有效地改善网络流
本课题的背景是为吸尘机器人自动导航系统找出一个快速准确的稠密匹配算法,所以本文围绕着稠密匹配实现的相关步骤,通过理论和实践相结合的方式,深入系统的研究了稠密匹配的
基于案例的推理是人工智能领域中的一种推理技术,克服了传统专家系统出现的知识获取瓶颈等问题,能够从新案例中获取知识,反映专家的思维过程,与医学诊断具有较高的相似性。因此,案
奇异值分解(SVD,Singular Value Decomposition)是一种正交变换,它可以将矩阵对角化。其优势在于奇异值具有相对稳定性。人们利用这一特性,将这一数学理论应用到数字水印中,并取得