在使用前,用户需在空间配置中预先设置目标文档分类。目前,分类结果仅包含已配置的文档类型。默认情况下,文档分类是业务流程中的关键中间环节,信息抽取操作需在文档分类完成后进行。
在返回的结果 JSON 中,可通过 result.files[].recognition_status 字段判断识别进度。当 recognition_status=1 时,表示抽取处理已完成,此时结果中也包含分类信息。单页/单套文档分类#
对于单页或单套文档,分类结果通过 result.files[].category 字段返回。多页拆套 / 多图切分#
在实际业务场景中,一份文档往往包含多种类型内容,这时需要对文档进行分页拆套或图像切分,以便后续信息抽取和审核。例如:- 保险理赔场景:一份多页 PDF 可能包含身份证、发票、银行流水等多种材料,需要分页拆套处理。
- 财务报销场景:一张 A4 纸上可能平铺多张出租车发票、飞机行程单等票据,需要进行图像切分。1. 功能启用#
拆套和多图切分功能默认关闭。
如需启用,可在文件上传时通过参数控制:- 通过参数 split_flag 启用多页拆套功能;
- 通过参数 crop_flag 启用多图切分功能。2. 结果获取#
启用拆套或多图切分功能后,若分类引擎判断文件可被拆分,系统将在 result.files[].child_files[].category 字段中返回切分后各文档的分类结果。每个切分后的文件被视为一个子任务,每个子任务均有独立的抽取结果,字段结构与主任务一致。仅进行分类#
默认流程中,文档分类完成后会继续进行信息抽取。如仅需获取分类结果,可在文件上传时,通过设置 target_process=classify 控制流程,仅执行分类步骤,不进入后续抽取和审核。当 target_process=classify 时,result.files[].recognition_status 为 10 表示分类已完成。修改于 2025-06-10 01:50:13