论文部分内容阅读
网页与电子邮件中的图像经常嵌入一些文字信息。以图像作为文字的载体源于许多需求,例如美化页面标题和文章标题,广告中吸引人们的注意,还有一些隐藏信息如垃圾邮件中的不良文本信息可以很容易地转为原生数字图像在网络中传播,从而避过文本过滤技术等。原生数字图像是用计算机软件生成的图像,图像中的文字包含许多有用的信息,能够客观反映图像所要表达的内容。因此,原生数字图像的文本提取对于网页内容的索引和检索、获取和过滤(如广告和垃圾邮件的过滤)等都存在着重要的意义。但是,原生数字图像文本提取工作面临分辨率低、文字本身大小和字体颜色的多样性以及边缘柔化所引起的连通体生成困难等问题,而真实场景图像的文本提取方法不一定适用于原生数字图像中的文本提取,所以原生数字图像中的文本提取成为了一个具有重要意义和挑战性的课题。
本文主要研究了基于条件随机场的原生数字图像中的文本提取。条件随机场不仅具有对上下文信息进行建模的能力,而且能够基于有监督学习自动确定模型中的参数。本文利用条件随机场根据连通体自身特征和连通体之间的上下文特征做出文本连通体与非文本连通体的分类,能够有效地从原生数字图像中提取文本信息。实验表明其有效性。