现阶段,文档的智能化处理是计算机视觉在产业中的重要应用方向,现阶段还面临着诸多挑战。合合信息敏锐的捕捉到其中的发展机会,并通过技术性创新积极推动在相关领域的落地。
合合信息表示,随着OCR技术应用面的持续拓宽,复杂多变的版面、多样化的文本内容给文档的识别和还原带来了新的挑战。“版面分析与文档还原”技术对提升文档图像电子化的视觉效果、信息提取精准度非常关键,这将是公司重点发力的方向之一。
在实际应用场景下,文档会包含大量的图片、表格等非文字内容,一篇普通的论文或者文稿,除文字信息外,其版面往往包含页眉、页脚、表格、二维码等多种元素。在向系统输入文档图像后,机器会对文字部分和版面元素进行分析和识别,把若干行文字关联起来,从而获得正确的顺序与段落关系,这便是版面分析技术。
版面分析的任务目标被分为物理版面分析和逻辑版面分析两类,前者主要解决区域分割问题,后者则关注区域之间的逻辑关系或阅读顺序。如何精准地辨别各类元素,并在文档电子化过程中让它们回归到应有的位置,是该项技术的难点之一。
如果无法提升版面分析的精准度,文件材料在被拍照、扫描成电子文档的过程中便可能出现漏字、错位的现象,图片转Word、图片转Excel等“可编辑”性的需求将无法被满足。
对此,合合信息有一套智能化处理方案,版面分析技术通过解决版面分割、区域间的逻辑关系处理等方面的难题,可将文档图像切分成不同类型内容(文本、图形、公式、表格等)的区域,并分析区域之间的关系,让机器更精准地确定文档中的文字位置、字体、大小和排版方式,从各类版式复杂的图片文档中精准获取信息。
未来,合合信息将加强C端、B端产品以及行业解决方案的技术优势,为全球企业和个人用户提供创新的数字化、智能化服务。公司在智能文字识别、图像处理、自然语言处理(NLP)、知识图谱、大数据挖掘等核心技术领域继续深耕,为全球百余个国家和地区的亿级用户提供更精准的智能文字识别等服务。帮助客户切实解决了降本增效、改善风控、高效获客的业务痛点,提供了较高的技术附加值。