三篇论文，纵览深度学习在表格识别中的全新应用

本文从三篇表格识别领域的精选论文出发，深入分析了深度学习在表格识别任务中的应用。

表格识别是文档分析与识别领域的一个重要分支，其具体目标是从表格中获取和访问数据及其它有效信息。众所周知，本质上表格是信息表达的一种重要形式，它能将数据组织成标准的结构，便于信息检索和比较。通常我们现阶段针对表格的处理方式是：人工使用 Excel 等工具打开表格，之后提娶操作和处理表格中的内容。人工处理表格的方式存在很多问题，一是，由于表格数量大，编辑过程中经常更新，不同的表格中可能写入了相同的内容，对这些表格进行手动交叉检查的时间有限，这种人工处理方法经常会出现表格处理错误、不一致等问题，这种错误和不一致可能会给公司带来巨大的声誉风险，甚至是经济损失。二是，手工提取表格信息往往是一个繁琐而耗时的过程。三是，在金融业和许多其他领域，表格往往是以非结构化的数字文件（如可移植文档格式（PDF）和图片格式）公开的，这些文件难以直接进行人工提取和处理。

因此，高效地从文档中找到表格，同时有效提取表格中的数据与结构信息即表格识别，成为了一个亟待解决的问题。表格识别具体是指，将表格以图片的形式发送到电脑上，自动提取表格图片中的各类信息，同时将这些信息重新堆叠为新的文档，也称为表格文档重建。应用表格识别技术能够大大节省表格内容处理的时间，同时能够减少由人为因素产生的错误。

近年来，国内外专家、学者针对这一问题进行了大量研究，引入图卷积神经网络（Graph convolutional network ，GCN）、快速 R-CNN (Fast R-CNN)，全卷积神经网络（Fully Convolutional Networks，FCN）、条件生成式对抗网络（Conditional Generative Adversarial Networks，CGAN）等深度学习方法和模型进行自动化的表格识别。表格识别也逐渐演变成了多个分支研究领域，包括：专门的数据集构建、表格检测、表格结构识别、表格检测与结构识别等。

热点

三篇论文，纵览深度学习在表格识别中的全新应用

由 dawei

发表回复取消回复

您错过了

深度剖析：站长资讯引领行业跨界合作新机遇

移动互联通讯安全架构设计与实现策略研究

云计算与物联网融合创新驱动数字未来

用户至上：创业与设计思维的核心导向

三篇论文，纵览深度学习在表格识别中的全新应用

由 dawei

相关文章

深入站长百科：网站安全与高效防护策略解析

站长百科：常用网站管理工具与资源速查指南

站长百科：掌握搜索引擎算法更新的核心价值

发表回复 取消回复

您错过了

深度剖析：站长资讯引领行业跨界合作新机遇

移动互联通讯安全架构设计与实现策略研究

云计算与物联网融合创新驱动数字未来

用户至上：创业与设计思维的核心导向

发表回复取消回复