发布时间: 2018-08-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.170624
2018 | Volume 23 | Number 8

图像分析和识别

回归—聚类联合框架下的手写文本行提取

朱健菲, 应自炉, 陈鹏飞

五邑大学信息工程学院, 江门 529020

收稿日期: 2017-12-12; 修回日期: 2018-03-07

基金项目: 国家自然科学基金项目（61771347，61372193）

第一作者简介: 朱健菲, 1991年生, 男, 五邑大学信息工程学院硕士研究生, 研究方向为图像处理、深度学习。E-mail:jfylxz@163.com;
陈鹏飞, 男, 五邑大学信息工程学院硕士研究生, 研究方向为图像处理、深度学习。E-mail:pengfei_chen@163.com.

中图法分类号: TP391.4

文献标识码: A

文章编号: 1006-8961(2018)08-1207-11

摘要

目的手写文本行提取是文档图像处理中的重要基础步骤，对于无约束手写文本图像，文本行都会有不同程度的倾斜、弯曲、交叉、粘连等问题。利用传统的几何分割或聚类的方法往往无法保证文本行边缘的精确分割。针对这些问题提出一种基于文本行回归-聚类联合框架的手写文本行提取方法。方法首先，采用各向异性高斯滤波器组对图像进行多尺度、多方向分析，利用拖尾效应检测脊形结构提取文本行主体区域，并对其骨架化得到文本行回归模型。然后，以连通域为基本图像单元建立超像素表示，为实现超像素的聚类，建立了像素-超像素-文本行关联层级随机场模型，利用能量函数优化的方法实现超像素的聚类与所属文本行标注。在此基础上，检测出所有的行间粘连字符块，采用基于回归线的k-means聚类算法由回归模型引导粘连字符像素聚类，实现粘连字符分割与所属文本行标注。最后，利用文本行标签开关实现了文本行像素的操控显示与定向提取，而不再需要几何分割。结果在HIT-MW脱机手写中文文档数据集上进行文本行提取测试，检测率DR为99.83%，识别准确率RA为99.92%。结论实验表明，提出的文本行回归-聚类联合分析框架相比于传统的分段投影分析、最小生成树聚类、Seam Carving等方法提高了文本行边缘的可控性与分割精度。在高效手写文本行提取的同时，最大程度地避免了相邻文本行的干扰，具有较高的准确率和鲁棒性。

关键词

手写文本行提取; 超像素; 图像分割; 回归; 聚类

Combination of regression and clustering for handwritten text line extraction

Zhu Jianfei, Ying Zilu, Chen Pengfei

School of Information Engineering, Wuyi University, Jiangmen 529020, China

Supported by: National Natural Science Foundation of China (61771347, 61372193)

Abstract

Objective Handwritten text line extraction is fundamental in document image processing. The text lines may suffer from tilting curving crossing and adhesion because of unconstrained paper layout and free writing style. Traditional text line segmentation or clustering method cannot guarantee the classification accuracy of the pixels between text lines. In this study, a text line regression-clustering joint framework for handwritten text line extraction is proposed. Method First, the anisotropic Gaussian filter bank is used to filter the handwritten document image in multiple scales and directions. The main body area (MBA) of text line is first extracted by smearing, andthe text line regression model is then obtained by extracting the skeleton structure of the MBA. Second, the super-pixel representation is constructed with connected component as the basic image element. For super-pixel classification and clustering, an approach based on associative hierarchical random fields is presented. A higher-order energy model is established by constructing a hierarchical network of pixel-connected component text lines. On the basis of the model, an energy function is built whose minimization yields the text line labels of the connected components. With the achieved instance labels of connected components as basis, the sticky characters that share the same label are detected. Third, the pixels of the sticky characters are re-clustered with k-means algorithm under the constraint of the text line regression model. With the instance labels of text lines, the manipulation of the text lines can be achieved by label switch. Therefore, the geometric segmentation of the document image is no longer needed, and the bounding box can be used to extract text line directly. Result Experiments were performed on HIT-MW document level dataset. The proposed framework achieved an overall detection rate of 99.83% and recognition accuracy of 99.92% which reach to the state-of-the-art performance for Chinese handwritten text line extraction. Conclusion Experimental results show that the proposed text line regression-clustering joint framework improves the segmentation accuracy in pixel levels and makes the edge of the text line more controllable than traditional algorithms, such as piecewise projection, minimum spanning tree-based clustering, and seam carving. The proposed system exhibits high performance on Chinese handwritten text line extraction together with enhanced robustness and accuracy without interference of adjacent text lines.

Key words

handwritten text line extraction; superpixel; image segmentation; regression; clustering

0 引言

文档数字化加工是图像处理与模式识别研究的重要领域，其任务是将纸质文档通过拍照或扫描的方式转化成数字图像，并进一步对数字文档图像版面分析、版面理解、版面重构，使之成为完全可编辑、可检索的数字文档，在拍照文档、笔记、档案、票据、手稿文书等的数字化方面具有重要的应用前景。在互联网时代下，电子出版、数字图书馆等概念不断出现，为了使纸质历史文献资料能更好的保存、传播与利用，目前世界上许多国家和地区的学术机构与大型图书馆都在开展历史文档数字化的工作，并通过网络为公众提供一种更加便捷的查阅方式。在Google、ABBYY、美国国家档案管理局、欧盟等公司或机构的资助下开展了大量的研究项目如HisDoc，DocExplore，Europeana，MADONNE，NaviDoMass等^[1-2]，为历史文档遗产资源数字化提供解决方案。

将文本块区域分割成独立的文本行是文档图像数字化的一个重要基础步骤，在很大程度上影响着后续的字符识别、文字定位、关键词检索等任务。相对于印刷体文本行分割与提取技术已经相对成熟，手写文本图像由于其自由随意的书写风格、参差不齐的笔画结构，文本行都会呈现出不同程度的倾斜、弯曲、交叉、粘连等问题，以至于手写文本图像的文本行分割与提取依然没有理想的解决方案。目前对于手写文本图像的文本行分割或提取方法主要分为以下3类^[3-5]：

1) 自顶向下(Top-down)。自顶向下的方法一般采用递归式的分割方式，按照一定的规则将文档图像不断的划分为文本块、段落、文本行。这类方法主要有分段投影分析^[6]、游程平滑^[7]、自适应局部连接图^[8]、Seam Carving^[9]等。其局限性主要在于文本块的行结构必须要规范、整齐而且还要保证一定的行间距，因此在无约束的书写条件下倾斜、弯曲、交叉、粘连的文本行分割根本无法胜任。

2) 自底向上(Bottom-up)。自底向上的方法一般根据图像块、连通域、特征角点等基本元素的临近关系进行聚类。这类方法主要有谱聚类^[10]、特征角点聚类^[11]、拖尾效应^[12]、Mumford-Shah模型^[13]、最小生成树^[14]聚类、卷积神经网络^[15]、马尔可夫决策过程^[16]等。自底向上的分析方法对文本行结构的规范性要求不高，一般能够较好的处理倾斜、弯曲、交叉、粘连的文本行，但是此类方法的效果也受限于聚类所采用的各种启发式规则。

3) 混合型方法(Hybrid)。混合型方法为自顶向下与自底向上方法的结合，以期望得到更好的结果。混合型的方法相对于前两种策略一般会得到更理想的结果，如文献[17]首先对文本行粗略估计，接着一系列的误检校正步骤来确保文本行的正确分割，文献[18]首先对字符连通域进行分解、归一化并估计出子连通域的状态，然后对子连通域聚类。这些方法很明显的缺点就是算法较为复杂，并且最终效果也受限于算法融合的策略。

针对手写文本行提取过程中容易出现的笔画信息丢失以及相邻文本行干扰问题，提出了一种基于回归—聚类联合分析框架的手写文本行提取算法，通过文本行像素标签化实现手写文本行的实例分割。致力于最大限度地保留文本行边缘的有效笔画信息，并避免相邻文本行冗余笔画信息的引入，从而实现文本行字符笔画的有效提取，为文本图像数字化系统中的字符识别模块做好准备工作。

1 回归—聚类联合框架的手写文本行提取算法

1.1 基本原理

手写文本分割与自然图像中的物体分割一个最大的不同点就是自然场景下的物体一般都会有较为明显的边缘结构而且一般都为连通体，区域异质性较为显著；而手写文本行则是由离散的字符块组成，尤其是对于汉字文本图像其信息密度较大，网状笔画分支丰富，边缘结构极为复杂，区域相似性显著。自然场景中的物体分割可以允许一定程度的像素损失，这并不会给识别带来较大的影响，而手写文本行分割则截然不同，即使是少量的笔画像素损失或冗余笔画的引入也可能会导致字符识别的失败。因此手写文本行的分割或提取必须要考虑到字符笔画的完整性与可控性。

一般对文档图像进行版面分析之后得到的文本区块可以被视为如图 1所示的层级结构，即文本区块是由文本行组成的，每一个文本行是由若干个连通域组成的，而连通域是由图像最基本的图像单元像素组成。因此，文本行的分割或提取可以视为笔画像素或连通域的聚类问题。对此，无论是Bottom-up还是Top-down的文本行分割方法，其初衷都是将离散的字符聚为一体，先形成文本“行”的概念然后再细化分割文本行的边缘。但是无论是以Top-down还是Bottom-up为主导的方法，从历年来ICDAR(国际文档分析与识别会议)组织的手写文本行分割或提取比赛^[3-5]来看，大都无法实现文本行边缘字符笔画的有效控制，尤其是对于相邻文本行之间交叉、粘连的笔画结构更是无法保证分割的精度，文本行边缘往往存在着大量的笔画像素无法准确判断其文本行归属问题，而且错误分类的像素一般都无法二次修正。

图 1 文本图像层级结构

Fig. 1 Hierachical structure of a document image

对于手写文本图像，绝大部分的字符粘连情况是发生在文本行内，而行间更多情况下是由于行间距较小或者上升、下降字符造成的笔画交叉并没有粘连，另外手写字体一般都具有较好的连通性。为提高文本行边缘像素分割的可控性与准确率，提出了改进的方案：文本行回归—聚类联合框架，如图 2所示。

图 2 改进的文本行分割方案

Fig. 2 Improved text line segmentation proposal

其核心思想是：通过尺度空间拖尾效应增强文本行结构提取文本行主体区域，对文本行主体区域细化得到回归模型。为实现文本行的精确分类与分割，提出了一种文本行关联层级随机场模型，建立文本图像超像素表示，并将超像素的聚类转化为像素标注问题，利用能量函数优化的方法求解得到超像素的所属文本行标签。在此基础上，检测出行间粘连字符块，对粘连的字符块像素聚类分割，并重新分配文本行标签，最终实现所有文本行像素的分组标注。在得到所有像素的所属文本行标签的基础上，利用文本行标签开关实现单文本行输出。

1.2 文本行回归分析

本文采用基于拖尾效应的“脊形结构”检测的方法^[17]来增强文本图像的“行结构”，使离散的字符块聚类成行，进而得到文本行回归模型。将各向异性高斯滤波器组作用于文本图像，沿着文本行的方向由于字符笔画密集，因此在文本行的主体区域会有较大的响应，形成“脊形结构”，而在文本行之间的区域响应较小，形成“谷形结构”，不仅可以填充文本行内的空隙还能保持行间距。在增强文本行结构的同时可以获得完整的文本行片段，减少文本序列碎片的发生。一般形式的各向异性高斯滤波核函数为

$ \begin{array}{l} \;\;\;\;\;\;G(u, v;{\sigma _x}, {\sigma _y}, \theta ) = \frac{1}{{2{\rm{ \mathit{ π} }}{\sigma _x}{\sigma _y}}}\\ {\rm{exp}}\left[{-\left( {\frac{{{{(x{\rm{cos}}\theta + y{\rm{sin}}\theta )}^2}}}{{2{\sigma _x}^2}} + \frac{{{{(-x{\rm{sin}}\theta + y{\rm{cos}}\theta )}^2}}}{{2{\sigma _y}^2}}} \right)} \right] \end{array} $

(1)

式中，${\sigma _x}$为$x$轴标准差，${\sigma _y}$为$y$轴标准差，$\theta $为方向角。为了克服手写文本图像字体大小、文本行朝向多变的问题，需要对每一幅文本图像进行多尺度、多方向分析，即滤波器组中的各个滤波器都有不同的${\sigma _x}$、${\sigma _y}$、$\theta$参数组合。关于尺度的选择，它关系着能否更好地得到感兴趣的图像结构，对手写文本图像来说主要关注文本行的主体区域。手写文本图像中尺度的变化主要表现为书写者字体大小的变化，无论对于拉丁语系的字母语言还是对于以中文为代表的方块字来说，手写字体尺度的变化主要反映在字符高度上。因此，尺度空间的估计就转化成字符高度范围的估计，可以直接对手写文本图像的连通域高度进行统计分析来估计字符高度范围。由图 3所示的手写文本图像及其连通域高度直方图可以看出，小笔画结构在该文本图像中占有很大的比例，这部分笔画信息会对尺度空间的鲁棒性估计带来较大的负面影响。

图 3 手写文本图像及其连通域高度统计直方图

Fig. 3 Connected components height histogram of a handwritten document image

根据连通域高度可以将连通域分为3类^[9]：小笔画、大连通域、普通连通域。文本图像充斥着大量相对独立的小笔画结构，如以“点”为代表的较小的笔画信息通常情况下为噪声、标点符号或因二值化造成的断裂笔画，较大的连通域通常是文本行之间相互粘连的字符，只有普通连通域才真正反映字符的实际尺度。为消除小笔画与粘连字符对尺度空间估计的影响，在计算尺度空间范围时移除掉较小的笔画与较大的连通域，筛选条件为

$ \frac{1}{{2n}}\sum\limits_{i = 1}^n {{h_c}(i)} \le {h_c} \le \frac{2}{n}\sum\limits_{i = 1}^n {{h_c}(i)} $

(2)

式中，$n$为连通域的总数，${{h_c}(i)}$表示第$i$个连通域的高度，保留高度在均值附近的普通连通域来确定尺度空间范围，若筛选剩余的连通域个数为$m$，最终尺度${{\sigma _y}}$的范围为

$ \frac{1}{{2m}}\sum\limits_{i = 1}^m {{h_c}(i)-5} \le {\sigma _y} \le \frac{1}{{2m}}\sum\limits_{i = 1}^m {{h_c}(i)} + 5 $

(3)

通过寻求文本图像在各尺度、方向上的最大响应，并由非最大值抑制得到文本图像在尺度空间上的最大响应图，采用全局阈值二值化的方式确定文本行主体区域。图 4给出了文本行回归模型，其中图 4(a)对应于原始文本图像图 3的文本行主体区域。由图 4(c)所示的文本行参考线模型可以看出，主体区域只集中在文本行中轴线附近，并没有完全覆盖到字符的上升、下降笔画，因此在实现文本行结构增强的同时，有效地保持了行间距。

图 4 文本行回归模型

Fig. 4 Text lines regression model((a) main body area of text lines; (b) regression lines of text lines; (c) reference lines of a text line)

为得到文本行回归模型，本文由细化算法提取文本行主体区域的骨架获得文本行回归线，如图 4(b)所示。但是，有些文本图像由于字符分布过于分散，行内字符间距较大，使用拖尾效应并不能确保所有同属于一行的字符连为一体，因此需要合并分散的文本回归线。假设现在有文本行回归线片段${s_i}$，该片段的端点坐标分别为${p_i}({x_{i1}}, {y_{i1}})$、${q_i}({x_{i2}}, {y_{i2}})$，与其相邻的文本行片段为${s_j}$，与之相对应的端点坐标分别为${p_j}({x_{j1}}, {y_{j1}})$、${q_j}({x_{j2}}, {y_{j2}})$，当满足条件

$ \left\{ \begin{array}{l} \left| {k({p_i}, {q_i})} \right| \le \left| {k({q_i}, {p_j})} \right| \le \left| {k({p_j}, {q_j})} \right|\\ \left| {{x_{i2}}-{x_{j1}}} \right| < \frac{w}{2}\\ \left| {{y_{i2}}-{y_{j1}}} \right| <{h_l} \end{array} \right. $

(4)

式中，$k(\cdot)$表示线段斜率，$w$为文本图像宽度，${h_l}$为文本行平均高度。则认为文本行回归线片段${s_j}$与${s_i}$同属一行，需要合并。

1.3 基于关联层级随机场模型的连通域聚类

超像素是一种图像预处理技术，相对于直接处理像素，超像素不仅更有利于局部特征的提取与结构信息的表达，而且能够大幅降低后续处理的计算复杂度^[19]。文献[18]提出了基于连通域分解的子连通域超像素表示方法，如图 5(b)所示，虽然这种方法能够较好地处理字符粘连问题，但同时也破坏了手写字符本身较好的连通性与完整性，因此无法保证拆分之后位于文本行边缘的局部笔画的准确分类。本文在得到文本行回归模型后，以字符连通域整体为基本图像单元建立文本图像超像素表示，将原本相对分散的字符数据转化为超像素“点数据”来简化文本行字符像素的聚类。通过提取连通域质心建立超像素表示图像，如图 5(c)所示，不仅能够进一步强化超像素点的文本行属性，而且还可以将要聚类的数据量降到最小，从而提高系统的鲁棒性。

图 5 不同的文档图像超像素表示对比

Fig. 5 Comparison of different superpixel representations of document image ((a) original image; (b) superpixels representation by connected component partition; (c) superpixels representation by connected component)

在一般的自然场景理解任务中，实例分割通过融合物体检测与语义分割，对每个像素(或区域)同时赋予类别和物体的标注^[20]，完成对物体的分割，不仅可以区分不同的类别还可以区分同类别的不同物体。与自然场景图像中物体实例分割类似，在实现文本行区域定位的同时，还希望得到文本行精确的掩膜。因此对于手写文本图像的文本行分割与提取，可以将其视为文本行多标签的标注问题来处理，利用能量函数对文本行检测和语义分割之间的类别一致性进行建模，利用文本行回归模型以及各种先验信息反向推理超像素图像点数据的文本行归属问题，图 6给出了反向推理模型，对应于原始文本图 5(a)。为实现超像素的有效分组，本文以手写文本图像的超像素作为无向图的节点，所要聚类的超像素集合(文本行)作为无向图的最大簇，建立一个像素—连通域—文本行关联层级随机场模型，如图 7所示，推理无向图节点的所属文本行标签，通过超像素分组标注来区分不同的文本行，进而确定字符的文本行归属关系。

图 6 由回归模型推理超像素聚类

Fig. 6 Backward resoning from regression model to superpixel clustering

图 7 文本行关联层级网络模型

Fig. 7 Associative hierarchical network of text lines

定义高阶能量函数$E(f)$为超像素的标记代价函数, 即

$ \begin{array}{l} E(f) = \overbrace {\sum\limits_{i \in v} {{\psi _i}({x_i})} }^{数据项} + \overbrace {\sum\limits_{\{ i, j\} \in \varepsilon } {{\psi _{i, j}}({x_i}, {x_j})} }^{平滑项} + \\ \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\overbrace {\sum\limits_{c \in C} {{\psi _c}({x_c})} }^{标签项} \end{array} $

(5)

式中，${\psi _i}({x_i})$表示一阶数据项，为超像素表示图中超像素点$i$取值为文本行标签${{x_i}}$的代价，式(5)有3项能量项：数据项、平滑项、标签项，使用高阶能量函数实现超像素的标注与分类，相比二元对能量模型，高阶能量模型能够更加有效的描述定性与统计性先验信息，如标记约束、区域一致性约束等局部区域先验与全局先验信息。

定义超像素点到文本行回归线的最小欧氏距离为$\min \{ d({x_i}, L)\} $，其中$L = \{ {l_1}, {l_2}, \cdots, {l_t}\} $，$t$为文本行的总数，最终标签项代价定义为

$ {\psi _i}({x_i}) = {\rm{exp}}(-\alpha \cdot{\rm{min}}d({x_i}, L)) $

(6)

式中，$\alpha $为平衡权重的系数，${{\psi _{i, j}}({x_i}, {x_j})}$为二阶平滑项，表示超像素图中的邻域集合$\Omega $内，相邻的像素点$i$、$j$分别取文本行标签$x_i$、$x_j$的代价。定义$d({x_i}, {x_j})$为相邻超像素点之间的欧氏距离，距离越小其所属文本行标签一致性的代价也就越小，同属一行的概率也就越大。定义二阶平滑项为

$ {\psi _{i, j}}({x_i}, {x_j}) = {\rm{exp}}(-\beta \cdot d({x_i}, {x_j})) $

(7)

式中，$\beta $为平衡权重的系数。${\psi _c}({x_c})$为高阶标签项，表示定义在超像素集合上的能量项，在此表示文本行的密度。采用最近邻的方法搜索出距离各个文本行回归线最近的超像素点集合，并统计超像素点的数量$\{ {m_1}, {m_2}, \cdots, {m_t}\} $，若超像素点集(连通域)数量为$s$，则文本行密度定义为

$ {\psi _c}({x_c}) = \exp \left( {-\gamma \frac{{{m_c}}}{s}} \right) $

(8)

式中，$\gamma $为平衡权重的系数。

对于能量函数的优化，本文采用基于组合优化的高阶能量优化方法^[20-21]，该方法由传统的Graph Cuts算法发展而来。优化策略为：将多标集的高阶能量项通过alpha-expansion转化为二标集的高阶能量项，然后添加辅助变量进行降阶，最后对降阶后的二阶二标集能量函数采用基于max-flow/min-cut的方法求解。通过最小化能量函数$E(f)$得到所有超像素即连通域的所属文本行标签，通过像素分组标注的方式实现了不同文本行的分类。如图 8所示的文本行像素分组标注结果，提出的方法能够充分利用手写字符本身的连通性质来区分非粘连情况下的行间交叉笔画结构，但是这样并不能保证所有的字符都被分配到正确的文本行，因为手写文本行之间由于字符相互粘连而形成的连通体只会分配一个文本行标签，因此还需要对粘连字符进一步分割处理，实现所有字符所属文本行标签的正确分配。

图 8 原始文本行像素分组标注

Fig. 8 Original pixel grouping and labeling of text lines

1.4 粘连字符分割与文本行像素分组标注

根据文本行主体区域与字符连通域的关系，当连通域与多个文本行主体区域相交时，就可以认定该连通体包含粘连字符。检测出的行间粘连字符块如图 9(a)所示，以及字符块连通体所跨越的文本行数$k$，对粘连的字符块进行像素分组聚类，并重新分配所属文本行标签。不同于k-means算法采用基于簇中心点的聚类方法，对于文本行字符像素聚类由于已知文本行像素回归模型，因此可以采用基于文本行回归线的聚类方法。定义粘连字符块的所有像素点到文本行回归线的距离总和为粘连字符像素的聚类代价${L_{{\rm{cost}}}}$，即

图 9 行间粘连字符检测与像素聚类

Fig. 9 Sticky characters detection and clustering ((a) detected sticky characters; (b) reclustering of sticky characters)

$ {L_{{\rm{cost}}}} = \sum\limits_{i = 1}^k {\sum\limits_{x \in \boldsymbol{C}} {\left\| {x-{l_i}} \right\|_2^2} } $

(9)

式中，${l_{i}}$表示文本行回归线，通过最小化${L_{{\rm{cost}}}}$将粘连字符像素集合分为$k$个簇群$\boldsymbol{C} = \{ {C_1}, {C_2}, \cdots, {C_k}\} $，实现粘连字符块的像素聚类，并对聚类所得的像素簇群根据最近邻算法来确定其所属文本行标签，重新分配文本行标签的粘连字符如图 10(b)所示，最终实现文本图像所有像素的分组标注，如图 10(a)所示，有效地解决了文本行间的笔画交叉粘连问题。

图 10 文本行像素分组实现单文本行输出

Fig. 10 Single text line output based on grouping and labeling of text lines ((a) grouping and labeling of text lines; (b) single text line output)

更进一步，在得到文本图像所有像素的所属文本行标签的基础上，通过文本行标签操控即可实现不同文本行的区分而不再需要几何分界线来分割相邻的文本行。为实现单文本行输出，本文对每一行文本行生成掩膜利用查找表生成文本行标签开关来操控文本行的显示与关闭，从而实现文本行的定向提取。当需要识别当前文本行时，只需打开当前文本行所属文本行标签开关，同时隐藏其他文本行，即可直接利用单文本行的Bounding Box实现文本行的快速定位与提取，最终得到的独立文本行如图 10(b)所示，在有效提取文本行的同时排除了相邻文本行的干扰，最大程度上保留了字符的笔画信息，同时又避免了文本行候选区域重叠与手写字体笔画交叉、粘连带来的分割问题。

2 实验

2.1 文本行提取算法评价标准

本文使用哈尔滨工业大学为研究手写字符识别建立的多人手写数据集HIT-MW^[22]。在此非常感谢哈尔滨工业大学的苏统华老师授权使用HIT-MW数据库。HIT-MW库包含了超过780人共853份手写文本图像。手写文本语料全部来自于《人民日报》，内容涵盖广泛。手写样图如图 11所示，样本图像是对采集的原书写纸张进行300 dpi灰度扫描并经过二值化处理后得到的二值图像。

图 11 HIT-MW数据集样图

Fig. 11 Sample images from HIT-MW dataset

文本行提取算法评估采用2013年ICDAR会议提出的标准^[4]。记$\boldsymbol{I}$为图像中所有的像素点集合，${\boldsymbol{G}_j}$表示第$j$个文本行真值标记区域(GT)的所有像素点集合，${\boldsymbol{R}_i}$表示实际得到的文本行中第$i$个文本行标记区域像素集合，$T(\cdot)$是统计像素点数量的函数，则实际得到的文本行与GT的像素匹配分数$S(i, j)$可以表示为

$ S\left( {i, j} \right) = \frac{{T(({\boldsymbol{G}_j} \cap {\boldsymbol{R}_i}) \cap \boldsymbol{I})}}{{T(({\boldsymbol{G}_j} \cup {\boldsymbol{R}_i}) \cap \boldsymbol{I})}} $

(10)

当且仅当上式计算得到的匹配分数大于等于可接受的阈值${T_\alpha }$时，才可以认为得到的文本行像素集合与GT是一对一匹配(one-to-one match)的。通常情况下，手写文本行的分割结果不可避免地存在笔画信息的冗余或缺失问题，本文保持与ICDAR相同的评估标准，设定阈值${T_\alpha }$为95%，即如果实际得到的文本行与GT的匹配分数达到95%以上，就可以认为此文本行是提取成功的。

记$N$为真值标记的文本行总数，$o2o$为一对一匹配的文本行总数，$M$为检测到的文本行总数。则有检测率(召回率) ${R_{\rm{D}}}$与识别准确率${R_{\rm{A}}}$分别定义为

$ {R_{\rm{D}}} = \frac{{o2o}}{N}, {R_{\rm{A}}} = \frac{{o2o}}{M} $

(11)

性能度量${F_{\rm{M}}}$(F-measure)被定义为检测率与识别准确率的平均，即

$ {F_{\rm{M}}} = \frac{{2{R_{\rm{D}}}{R_{\rm{A}}}}}{{{R_{\rm{D}}} + {R_{\rm{A}}}}} $

(12)

2.2 手写文本行提取

提出的基于文本行回归—聚类联合框架的手写文本行提取算法在MATLAB 2017b软件环境下采用Matlab/C++混合编程，在Intel Core (TM) i3-7350K，16G RAM的个人计算机上实现。由于原图普遍较大为1.003.00万像素，为减少像素标注计算量本文对其降采样处理，降采样因子为2，并最终上采样回原始图像大小，如果不包含文本图像二值化消耗的时间，平均完成1幅图像的文本行提取需要1.4 s。对于HIT-MW手写数据集中的853份手写文本图像，8 677行GT，本文算法共提取出文本行8 669行，其中一对一匹配的文本行为8 662行。检测率为99.83%，识别准确率为99.92%，性能度量为99.87%，达到了较理想的文本行提取效果。

为了证明本文算法的有效性，对比了主流的6种方法，如表 1所示，可以看出，本文算法在HIT-MW中文手写文本图像数据集上取得了较好的表现。其中SNU system^[18]由Jewoong Ryu等人提出，该方法分别获得ICDAR组织的ICDAR2013手写文本行分割比赛^[4]与ICDAR2015历史文档文本行检测比赛^[3]的第1名，该方法能够同时胜任多种语言，如汉语、英语、阿拉伯语等的手写文本行提取问题。基于Seam Carving的文本行分割^[9]方法曾在ICDAR比赛中被用来制作历史文档图像的文本行真值标记数据，该方法通过在文本行之间寻找最佳分割缝的方式来分割文本行。另外，CASIA-MSTSeg是基于最小生成树的连通域聚类方法^[14]，由殷飞等人^[23]提出，CASIA-HWDB离线中文手写数据集的标注就采用了此方法。

表 1 各算法的平均性能对比
Table 1 Average performance comparison of different algorithms

下载CSV

方法	${{R_{\rm{D}}}}$/%	${{R_{\rm{A}}}}$/%	${F_{\rm{M}}}$/%	时间/s
Piece-Wise Projection^[6]	92.55	93.10	92.82	0.7
Spectral Clustering^[10]	95.42	95.61	95.51	＞17.5
CASIA-MSTSeg^[14]	95.86	95.51	95.68	2.5
Mumford-shah Model^[13]	95.92	96.86	96.39	13.8
Seam Carving^[9]	98.51	98.79	98.65	0.9
SNU system^[18]	99.78	99.88	99.83	12
本文	99.83	99.92	99.87	1.4

本文在HIT-MW中文手写数据集上着重对比了算法SNU system、Seam Carving以及广泛应用的投影分析的方法，其他结果均来自作者文献中得到的原始实验数据。图 12给出了不同的文本行分割算法分割结果示例图，其中图 12(a)为分段投影分析的方法，可以看出该方法只有在行间距较大或文本行相对平直的条件下才能保证文本行界限框不重叠，因此并不适用于无约束手写文本行的提取；图 12(b)为基于Seam Carving的最佳缝分割方法，首先将文本图像粗略地划分为若干个片段，然后再确定文本行的ROI区域，该方法的缺点是对于手写汉字较密集与较稀疏的条件下分隔缝的走向并不容易控制；图 12(c)为SNU system算法的分割结果，由于该方法采用了连通域分解的策略，因此处于文本行边缘并靠近相邻文本行的子连通域极容易误判；图 12(d)为本文方法，可以看出对于大部分的字符笔画都能够有效的区分，另外借助像素标签化的思想，通过文本图像的像素标签即可实现文本行的操控与提取，使得文本行的提取不再需要文本图像的实体分割，简化了文本行的提取流程。

图 12 不同的文本行分割算法分割结果示例

Fig. 12 Sample result of different text line segmentation methods ((a) Piece-Wise Projection; (b) Seam Carving; (c) SNU system; (d) proposed method)

从算法效率的角度来看，如表 1所示的文档图像文本行提取平均花费时间统计，其中文献[6, 9, 14, 18]的平均花费时间均为完全由C++实现的测试结果，其他(包括本文)为Matlab实现的测试结果。虽然Piece-Wise Projection与Seam Carving算法均有较高的效率，但是对于倾斜、粘连较严重的手写文本行提取结果并不理想。只有SNU system与本文算法在处理时间与提取效果之间取得了较好的平衡。另外，本文仅在尺度空间滤波与能量优化部分采用了C++实现，其他部分均采用Matlab实现，因此本文算法在效率上仍然有较大的提升空间。

目前，离线手写字符识别的研究趋势已经从独立字符识别发展到无约束手写字符序列识别，即文本行识别，不再需要额外的字符分割步骤^[23-24]。相对于传统方法都需要在几何层面对文本图像进行分割才得到独立的文本行，本文采用文本图像像素标签操控的方式来提取文本行的方法不需要额外的后续处理，可以无缝对接到文本行字符序列识别模块，因此对手写文档图像数字化系统的创建更加便利。

3 结论

针对无约束手写文本图像，本文提出了一种基于回归—聚类联合框架的手写文本行提取方法。为实现手写文本行像素的完整提取，同时避免冗余笔画信息的引入，建立高阶马尔可夫随机场模型与文本图像的超像素表示，利用文本行回归模型等先验信息实现了所有连通域的所属文本行标记。在此基础上，检测出所有的行间粘连字符，利用基于回归线的k-means算法实现了粘连字符像素的聚类，并对分组后的像素分配文本行标签，从而得到了文本图像所有像素的所属文本行标签。不同于传统方法使用几何分割线来区分不同文本行的方式，利用像素标签即可实现文本行的操控显示与逐行提取。实验结果表明，本文算法相比较传统的手写文本行提取算法在文字笔画信息完整性保持以及效率上更具优势，提高了文本行边缘的可控性与分割精度。在高效手写文本行提取的同时，最大程度地避免了相邻文本行的干扰，具有较高的准确率和鲁棒性。

另外，提出的方法有一大缺陷就是所要处理的文本图像必须为二值图像，并且对手写文本图像的二值化算法要求较高，如受噪声、字迹斑点的影响较大。从历届ICDAR组织的文档图像二值化比赛(DIBCO)与国际手写识别会议(ICFHR)组织的手写文档图像二值化比赛(H-DIBCO)来看^[25-26]，历史文档图像尤其是降质较严重的文档图像的二值化算法在效率和质量上仍然是一大掣肘。因此，如何直接对非二值手写文本图像进行手写文本信息提取并保证较高的笔画还原度，或者如何增强手写字符笔画信息并有效去除文本图像的复杂背景，这是两条可行的途径，也是以后需要继续研究的方向。

参考文献

[1] Neudecker C, Antonacopoulos A. Making Europe's historical newspapers searchable[C]//Proceedings of the 12th IAPR Workshop on Document Analysis Systems. Santorini, Greece: IEEE, 2016: 405-410. [DOI: 10.1109/DAS.2016.83]

[2] Mehri M, Gomez-Krämer P, Héroux P, et al. A texture-based pixel labeling approach for historical books[J]. Pattern Analysis and Applications, 2017, 20(2): 325–364. [DOI:10.1007/s10044-015-0451-9]

[3] Murdock M, Reid S, Hamilton B, et al. ICDAR 2015 competition on text line detection in historical documents[C]//Proceedings of the 13th International Conference on Document Analysis and Recognition. Tunis, Tunisia: IEEE, 2015: 1171-1175. [DOI: 10.1109/ICDAR.2015.7333945]

[4] Stamatopoulos N, Gatos B, Louloudis G, et al. ICDAR 2013 handwriting segmentation contest[C]//Proceedings of the 12th International Conference on Document Analysis and Recognition. Washington, DC, USA: IEEE, 2013: 1402-1406. [DOI: 10.1109/ICDAR.2013.283]

[5] Gatos B, Stamatopoulos N, Louloudis G. ICFHR 2010 handwriting segmentation contest[C]//Proceedings of the 12th International Conference on Frontiers in Handwriting Recognition. Kolkata, India: IEEE, 2010: 737-742. [DOI: 10.1109/ICFHR.2010.120]

[6] Arivazhagan M, Srinivasan H, Srihari S. A statistical approach to line segmentation in handwritten documents[C]//Proceedings of the SPIE 6500, Document Recognition and Retrieval XIV. San Jose, CA: SPIE, 2007: #65000T. [DOI: 10.1117/12.704538]

[7] Nikolaou N, Makridis M, Gatos B, et al. Segmentation of historical machine-printed documents using adaptive run length smoothing and skeleton segmentation paths[J]. Image and Vision Computing, 2010, 28(4): 590–604. [DOI:10.1016/j.imavis.2009.09.013]

[8] Shi Z X, Setlur S, Govindaraju V, et al. A steerable directional local profile technique for extraction of handwritten Arabic text lines[C]//Proceedings of the 10th International Conference on Document Analysis and Recognition. Barcelona, Spain: IEEE, 2009: 176-180. [DOI: 10.1109/ICDAR.2009.79]

[9] Zhang X, Tan C L. Text line segmentation for handwritten documents using constrained seam carving[C]//Proceedings of the 14th International Conference on Frontiers in Handwriting Recognition. Heraklion, Greece: IEEE, 2014: 98-103. [DOI: 10.1109/ICFHR.2014.24]

[10] Han X C, Yao H, Zhong G Q. Handwritten text line segmentation by spectral clustering[C]//Proceedings of the SPIE 10225, 8th International Conference on Graphic and Image Processing. Tokyo, Japan: SPIE, 2017: #102251A. [DOI: 10.1117/12.2266982]

[11] Yadav V, Ragot N. Text extraction in document images: highlight on using corner points[C]//Proceedings of the 12th IAPR Workshop on Document Analysis Systems. Santorini, Greece: IEEE, 2016: 281-286. [DOI: 10.1109/DAS.2016.67]

[12] Bukhari S S, Shafait F, Breuel T M. Text-line extraction using a convolution of isotropic Gaussian filter with a set of line filters[C]//Proceedings of the 11th International Conference on Document Analysis and Recognition. Beijing, China: IEEE, 2011: 579-583. [DOI: 10.1109/ICDAR.2011.122]

[13] Du X J, Pan W M, Bui T D. Text line segmentation in handwritten documents using Mumford-Shah model[J]. Pattern Recognition, 2009, 42(12): 3136–3145. [DOI:10.1016/j.patcog.2008.12.021]

[14] Yin F, Liu C L. Handwritten Chinese text line segmentation by clustering with distance metric learning[J]. Pattern Recognition, 2009, 42(12): 3146–3157. [DOI:10.1016/j.patcog.2008.12.013]

[15] Vo Q N, Lee G. Dense prediction for text line segmentation in handwritten document images[C]//Proceedings of 2016 IEEE International Conference on Image Processing. Phoenix, Arizona, USA: IEEE, 2016: 3264-3268. [DOI: 10.1109/ICIP.2016.7532963]

[16] Boulid Y, Souhar A, Elkettani M Y. Detection of text lines of handwritten Arabic manuscripts using Markov decision processes[J]. International Journal of Interactive Multimedia and Artificial Intelligence, 2016, 4(1): 31–36. [DOI:10.9781/ijimai.2016.416]

[17] Cohen R, Dinstein I, El-Sana J, et al. Using scale-space anisotropic smoothing for text line extraction in historical documents[C]//Proceedings of the 11th International Conference on Image Analysis and Recognition. Cham: Springer, 2014: 349-358. [DOI: 10.1007/978-3-319-11758-4_38]

[18] Ryu J, Koo H I, Cho N I. Language-independent text-line extraction algorithm for handwritten documents[J]. IEEE Signal Processing Letters, 2014, 21(9): 1115–1119. [DOI:10.1109/LSP.2014.2325940]

[19] Song X Y, Zhou L L, Li Z G, et al. Review on superpixel methods in image segmentation[J]. Journal of Image and Graphics, 2015, 20(5): 599–608. [宋熙煜, 周利莉, 李中国, 等. 图像分割中的超像素方法研究综述[J]. 中国图象图形学报, 2015, 20(5): 599–608. ] [DOI:10.11834/jig.20150502]

[20] Yu M, Hu Z Y. Higher-order Markov random fields and their applications in scene understanding[J]. Acta Automatica Sinica, 2015, 41(7): 1213–1234. [余淼, 胡占义. 高阶马尔科夫随机场及其在场景理解中的应用[J]. 自动化学报, 2015, 41(7): 1213–1234. ] [DOI:10.16383/j.aas.2015.c140684]

[21] Delong A, Osokin A, Isack H N, et al. Fast approximate energy minimization with label costs[J]. International Journal of Computer Vision, 2012, 96(1): 1–27. [DOI:10.1007/s11263-011-0437-z]

[22] Su T H, Zhang T W, Guan D. Corpus-based HIT-MW database for offline recognition of general-purpose Chinese handwritten text[J]. International Journal of Document Analysis and Recognition, 2007, 10: 27–38. [DOI:10.1007/s10032-006-0037-6]

[23] Liu C L, Yin F, Wang D H, et al. CASIA online and offline Chinese handwriting databases[C]//Proceedings of 2011 International Conference on Document Analysis and Recognition. Beijing, China: IEEE, 2011: 37-41. [DOI: 10.1109/ICDAR.2011.17]

[24] Zhang X Y, Bengio Y, Liu C L. Online and offline handwritten Chinese character recognition:a comprehensive study and new benchmark[J]. Pattern Recognition, 2017, 61: 348–360. [DOI:10.1016/j.patcog.2016.08.005]

[25] Pratikakis I, Zagoris K, Barlas G, et al. ICFHR2016 handwritten document image binarization contest (H-DIBCO 2016)[C]//Proceedings of the 201615th International Conference on Frontiers in Handwriting Recognition. Shenzhen, China: IEEE, 2016: 619-623. [DOI: 10.1109/ICFHR.2016.0118]

[26] Jia F X, Shi C Z, He K, et al. Degraded document image binarization using structural symmetry of strokes[J]. Pattern Recognition, 2018, 74: 225–240. [DOI:10.1016/j.patcog.2017.09.032]