文档分类

概述

使用文件上传接口上传文件后，可通过异步方式调用获取结果接口获取处理结果。

在使用前，用户需在空间配置中预先设置目标文档分类。目前，分类结果仅包含已配置的文档类型。

默认情况下，文档分类是业务流程中的关键中间环节，信息抽取操作需在文档分类完成后进行。
在返回的结果 JSON 中，可通过 result.files[].recognition_status 字段判断识别进度。当 recognition_status=1 时，表示抽取处理已完成，此时结果中也包含分类信息。

单页/单套文档分类

对于单页或单套文档，分类结果通过 result.files[].category 字段返回。

多页拆套 / 多图切分

在实际业务场景中，一份文档往往包含多种类型内容，这时需要对文档进行分页拆套或图像切分，以便后续信息抽取和审核。例如：

- 保险理赔场景：一份多页 PDF 可能包含身份证、发票、银行流水等多种材料，需要分页拆套处理。
- 财务报销场景：一张 A4 纸上可能平铺多张出租车发票、飞机行程单等票据，需要进行图像切分。

1. 功能启用

拆套和多图切分功能默认关闭。
如需启用，可在文件上传时通过参数控制：

- 通过参数 split_flag 启用多页拆套功能；
- 通过参数 crop_flag 启用多图切分功能。

两项功能可根据需要单独或组合使用。

2. 结果获取

启用拆套或多图切分功能后，若分类引擎判断文件可被拆分，系统将在 result.files[].child_files[].category 字段中返回切分后各文档的分类结果。

每个切分后的文件被视为一个子任务，每个子任务均有独立的抽取结果，字段结构与主任务一致。

仅进行分类

默认流程中，文档分类完成后会继续进行信息抽取。如仅需获取分类结果，可在文件上传时，通过设置 target_process=classify 控制流程，仅执行分类步骤，不进入后续抽取和审核。

当 target_process=classify 时，result.files[].recognition_status 为 10 表示分类已完成。

概述#

单页/单套文档分类#

多页拆套 / 多图切分#

1. 功能启用#

2. 结果获取#

仅进行分类#

概述

单页/单套文档分类

多页拆套 / 多图切分

1. 功能启用

2. 结果获取

仅进行分类