论文部分内容阅读
自然场景文本检测识别在智能设备中应用广泛,而对文本识别的第一步则是对文本进行精确的定位检测。对于现有像素分割方法 PixelLink中存在的弯曲文本定位包含过多背景信息、检测图像后处理不足两个主要问题提出改进。引入特征通道注意力机制,关注生成特征图中特征通道间的权重关系,提升检测方法的鲁棒性。接着改变公开数据集标注形式,将坐标点表示为一串带有方向的序列形式,在LSTM模型中进行多边形框的学习与框定。最后在公开数据集和自建数据集上进行文本检测测试。实验表明,改进的检测方法在各数据集中表现优于原方法,与