OCR表格信息抽取能不能支持对某一个识别后的单元格数据二次处理呢?[阿里云OCR]

问题1:OCR表格信息抽取能不能支持对某一个识别后的单元格数据二次处理呢?因为客户发来的模板是在一个单元格,但我想达到根据词典拆开的效果。 问题2:按列标是什么意思呢?

「点点赞赏,手留余香」

    还没有人赞赏,快来当第一个赞赏的人吧!
=====这是一个广告位,招租中,联系qq 78315851====
2 条回复 A 作者 M 管理员
  1. OCR 表格信息抽取通常可以支持对识别后的单元格数据进行二次处理,以达到您所需要的结果。您可以根据 OCR 抽取后的结果进行二次处理,例如根据词典拆分单元格数据、合并单元格、格式化数据等。

    一般来说,OCR 抽取后的结果通常会以文本或结构化数据的形式输出,您可以对这些数据进行处理。如果您使用的是 OCR 抽取服务,服务提供商通常会提供相应的 SDK 或 API,您可以使用这些工具来访问和处理 OCR 抽取结果。

    如果您使用的是 OCR 抽取软件或工具,您可以使用相应的工具来访问和处理 OCR 抽取结果。例如,您可以使用 Python 中的 pandas 库来处理和分析表格数据,使用 NLP 工具库来进行文本处理和分析。

  2. 问题1:OCR 抽取的结果可以再次进行二次处理,例如根据词典拆分单元格数据。你可以使用编程语言(如 Python)或者其他工具对 OCR 抽取结果进行处理。具体操作可以参考以下几个步骤:

    1. 使用 OCR 技术对表格进行识别,获取表格中的所有单元格数据。
    2. 对每个单元格数据进行处理,例如使用正则表达式或者字符串操作将单元格数据按照词典进行拆分。
    3. 将处理后的数据重新组合成表格形式,输出结果。

    问题2:按列标是指按照表格中的列索引进行处理。在 OCR 抽取中,可以根据表格中每个单元格的位置信息(例如左上角坐标和右下角坐标)来获取每个单元格所在的列和行。按列标处理即是对表格中每一列的单元格数据进行处理。

  3. 针对问题1的回答:准备好训练数据,按列标 是可以的。针对问题2的回答:每个单元格只框出对应的文字内容,比如“宽”这一列就只框“1234”此回答整理自钉群“【官方】阿里云OCR文档自学习用户答疑群”