文档中心
API调试

功能描述

general information extration

智能文档抽取服务-API文档

请求URL

https://api.textin.com/ai/service/v1/entity_extraction

HTTP请求方法(Method)

HTTP POST

请求头说明(Request Headers)

请在HTTP请求中添加以下自定义标头(Header)。

header 名
x-ti-app-id 请登录后前往 “工作台-账号设置-开发者信息” 查看 x-ti-app-id
x-ti-secret-code 请登录后前往 “工作台-账号设置-开发者信息” 查看 x-ti-secret-code

URL参数(Parameters)

URL参数指以 {参数名}={参数值} 形式拼接到 URL 上的键值对。它以 ? 开头,不同参数之间使用 & 连接。形如 ?p1=v1&p2=v2
参数名 数据类型 是否必填 允许的值 描述
ie_type string close_ie, auto_structure

信息抽取类型,不传时默认为close_ie

  • close_ie:自定义key抽取模式,将会按url参数keytable_header的值进行信息抽取。

  • auto_structure:自动结构化模式,自动提取样本中第一页所有字段信息,该模式下url参数keytable_header将不在生效

key string 见描述

单值抽取时要抽取的key

  • 单个key请求示例:/ai/service/v1/entity_extraction?key=企业名称

  • 多个key时,key之间请用英文逗号拼接,例如:/ai/service/v1/entity_extraction?key=企业名称,地址

当type=auto_structure时该参数无效

table_header string 见描述

表格抽取时要抽取的表格列头,参考key的传参方式

当type=auto_structure时该参数无效

如下表,若抽取表格信息,请求示例:/ai/service/v1/entity_extraction?table_header=姓名,性别,年龄

姓名 性别 年龄
杜*傅 25
李*霞 18
陶*涛 24
file_name string 见描述

待抽取样本的文件名(含后缀名)

请求体说明(Request Body)

支持以下两种请求格式

1. Content-Type: application/octet-stream

支持的文件格式:png, jpg, jpeg, doc, docx, pdf, ofd, xlsx, xls;文档最大处理页数为20页,抽取的key与table_header最大数量之和为30个,超出最大限制优先取key。

请注意,请求体的数据格式为本地文件的二进制流,非 FormData 或其他格式。文件大小不超过 50M,图像宽高须介于 20 和 10000(像素)之间。

2. Content-Type: text/plain

请求体的数据格式为文本,内容为在线文件的URL链接(支持http以及https协议)。在线文件大小不超过 50M,图像宽高须介于 20 和 10000(像素)之间。

响应体说明 (Response)

Content-Type: application/json

JSON结构说明如下:

字段名 类型 描述
version string

版本号

code integer 错误码,详见“错误码说明”
message string

错误信息

duration integer

推理时间(ms)

result object
+ category object

details字段里的数据类型

  • one_to_one:表示单值抽取的key
  • item_list:表示表格的抽取(当url参数type=auto_structure时不会返回该类型)
   ++ additionalProp1 string
  • one_to_one
   ++ additionalProp2 string
  • one_to_one
   ++ additionalProp3 string
  • one_to_one
   ++ row string

表格类型

+ rotated_image_width integer

正方向时文档的宽,仅文档为图片时其值有效

+ rotated_image_height integer

正方向时文档高,仅文档为图片时其值有效

+ page_count integer

智能文档抽取处理的文档页数,超过最大页数限制时(20页),返回为最大页数

当url参数type=auto_structure时只会返回1

+ image_angle integer

文档角度,指原文档需要经过顺时针旋转多少度,才能得到正方向的文档,仅文档为图片时其值有效

+ details object

文档抽取结果

   ++ additionalProp1 object
    +++ value string

字段识别结果

    +++ position array

识别的value在原图中的坐标是个长度为8的数组 [0,1,2,3,4,5,6,7]

  • (0, 1) 左上角坐标
  • (2, 3) 右上角坐标
  • (4, 5) 右下角坐标
  • (6, 7) 左下角坐标
    +++ description string

字段中文描述

    +++ lines
   ++ additionalProp2 object
    +++ value string

字段识别结果

    +++ position array

识别的value在原图中的坐标是个长度为8的数组 [0,1,2,3,4,5,6,7]

  • (0, 1) 左上角坐标
  • (2, 3) 右上角坐标
  • (4, 5) 右下角坐标
  • (6, 7) 左下角坐标
    +++ description string

字段中文描述

   ++ additionalProp3 object
    +++ value string

字段识别结果

    +++ position array

识别的value在原图中的坐标是个长度为8的数组 [0,1,2,3,4,5,6,7]

  • (0, 1) 左上角坐标
  • (2, 3) 右上角坐标
  • (4, 5) 右下角坐标
  • (6, 7) 左下角坐标
    +++ description string

字段中文描述

   ++ row array

table_header的抽取结果(当url参数type=auto_structure时不会返回该字段)

+ detail_structure array

字段的识别信息

   ++ doc_type string

文档的类型(仅当url参数type=auto_structure返回该字段)

   ++ page_range array

抽取的信息所在页范围

   ++ tables array

表格信息

    +++ position array

坐标

    +++ page_number number

所在页

    +++ text string

html形式的表格

   ++ tables_relationship array

表格的结构化信息(当url参数type=auto_structure时返回为空数组)

    +++ row_count number

行数

    +++ column_count number

列数

    +++ cells array

单元格信息

     ++++ additionalProp1 array
      +++++ value string

字段识别结果

      +++++ bounding_regions array

边界框信息

       ++++++ page_number integer

所在页码

       ++++++ value string

文本内容

       ++++++ position array

文本的坐标

       ++++++ char_pos array

每个字符的坐标

     ++++ additionalProp2 array
      +++++ value string

字段识别结果

      +++++ bounding_regions array

边界框信息

       ++++++ page_number integer

所在页码

       ++++++ value string

文本内容

       ++++++ position array

文本的坐标

       ++++++ char_pos array

每个字符的坐标

     ++++ additionalProp3 array
      +++++ value string

字段识别结果

      +++++ bounding_regions array

边界框信息

       ++++++ page_number integer

所在页码

       ++++++ value string

文本内容

       ++++++ position array

文本的坐标

       ++++++ char_pos array

每个字符的坐标

    +++ title string

title

   ++ category array

结构化抽取出来的所有字段

   ++ fields object

提取的字段结构化结果

    +++ additionalProp1 array
     ++++ value string

字段识别结果

     ++++ bounding_regions array

边界框信息

      +++++ page_number integer

所在页码

      +++++ value string

文本内容

      +++++ position array

文本的坐标

      +++++ char_pos array

每个字符的坐标

    +++ additionalProp2 array
     ++++ value string

字段识别结果

     ++++ bounding_regions array

边界框信息

      +++++ page_number integer

所在页码

      +++++ value string

文本内容

      +++++ position array

文本的坐标

      +++++ char_pos array

每个字符的坐标

    +++ additionalProp3 array
     ++++ value string

字段识别结果

     ++++ bounding_regions array

边界框信息

      +++++ page_number integer

所在页码

      +++++ value string

文本内容

      +++++ position array

文本的坐标

      +++++ char_pos array

每个字符的坐标

   ++ stamps array

印章识别结果

    +++ color string

当前印章颜色

  • 红色
  • 蓝色
  • 黑色
  • 其他
    +++ position array

印章的坐标信息

    +++ stamp_shape string

当前印章形状

  • 圆章
  • 椭圆章
  • 方章
  • 三角章
  • 菱形章
  • 其他
    +++ type string

当前印章类型

  • 公章
  • 个人章
  • 专用章
  • 其他
  • 合同专用章
  • 财务专用章
  • 发票专用章
  • 业务专用章
    +++ value string

印章的文本内容

+ finish_reason string

推理结束的原因

  • stop:正常推理结束
  • length:token超出限制而结束
+ documents array

文档每一页的文档元素信息

   ++ page_id integer

所在页

   ++ position array

坐标信息

   ++ paragraph_id integer

当前段落id

   ++ type string

当前元素的类型

  • paragraph:段落类型,包括正文、标题、公式等文字信息
  • image:图片
  • table:表格,当为表格时,text里存储的为表格的html信息
   ++ text string

文字信息

JSON结构示例

{"version":"v1.6.5","code":200,"message":"success","duration":2825,"result":{"category":{"row":"item_list","additionalProp1":"one_to_one","additionalProp2":"one_to_one","additionalProp3":"one_to_one"},"rotated_image_width":1000,"rotated_image_height":2000,"page_count":10,"image_angle":90,"details":{"row":[{"additionalProp1":{"value":"字段识别结果","position":[100,200,200,200,300,200,100,300],"description":"字段中文描述","lines":[{"page":0,"text":"example","pos":[100,200,200,200,300,200,100,300],"angle":90,"char_pos":[[100,200,200,200,300,200,100,300]]}]},"additionalProp2":{"value":"字段识别结果","position":[100,200,200,200,300,200,100,300],"description":"字段中文描述","lines":[{"page":0,"text":"example","pos":[100,200,200,200,300,200,100,300],"angle":90,"char_pos":[[100,200,200,200,300,200,100,300]]}]},"additionalProp3":{"value":"字段识别结果","position":[100,200,200,200,300,200,100,300],"description":"字段中文描述","lines":[{"page":0,"text":"example","pos":[100,200,200,200,300,200,100,300],"angle":90,"char_pos":[[100,200,200,200,300,200,100,300]]}]}}],"additionalProp1":{"value":"字段识别结果","position":[100,200,200,200,300,200,100,300],"description":"字段中文描述","lines":[{"page":0,"text":"example","pos":[100,200,200,200,300,200,100,300],"angle":90,"char_pos":[[100,200,200,200,300,200,100,300]]}]},"additionalProp2":{"value":"字段识别结果","position":[100,200,200,200,300,200,100,300],"description":"字段中文描述","lines":[{"page":0,"text":"example","pos":[100,200,200,200,300,200,100,300],"angle":90,"char_pos":[[100,200,200,200,300,200,100,300]]}]},"additionalProp3":{"value":"字段识别结果","position":[100,200,200,200,300,200,100,300],"description":"字段中文描述","lines":[{"page":0,"text":"example","pos":[100,200,200,200,300,200,100,300],"angle":90,"char_pos":[[100,200,200,200,300,200,100,300]]}]}},"detail_structure":[{"doc_type":"string","page_range":[0],"tables":[{"position":[343,56,459,56,459,90,343,90],"page_number":0,"text":"string"}],"tables_relationship":[{"row_count":2,"column_count":2,"cells":[{"additionalProp1":[{"value":"string","bounding_regions":[{"page_number":0,"value":"string","position":[343,56,459,56,459,90,343,90],"char_pos":[[343,56,459,56,459,90,343,90]]}]}],"additionalProp2":[{"value":"string","bounding_regions":[{"page_number":0,"value":"string","position":[343,56,459,56,459,90,343,90],"char_pos":[[343,56,459,56,459,90,343,90]]}]}],"additionalProp3":[{"value":"string","bounding_regions":[{"page_number":0,"value":"string","position":[343,56,459,56,459,90,343,90],"char_pos":[[343,56,459,56,459,90,343,90]]}]}]}],"title":"row"}],"category":["标题","性别"],"fields":{"additionalProp1":[{"value":"string","bounding_regions":[{"page_number":0,"value":"string","position":[343,56,459,56,459,90,343,90],"char_pos":[[343,56,459,56,459,90,343,90]]}]}],"additionalProp2":[{"value":"string","bounding_regions":[{"page_number":0,"value":"string","position":[343,56,459,56,459,90,343,90],"char_pos":[[343,56,459,56,459,90,343,90]]}]}],"additionalProp3":[{"value":"string","bounding_regions":[{"page_number":0,"value":"string","position":[343,56,459,56,459,90,343,90],"char_pos":[[343,56,459,56,459,90,343,90]]}]}]},"stamps":[{"color":"红色","position":[956,583,1362,590,1355,990,950,983],"stamp_shape":"圆章","type":"公章","value":"string"}]}],"finish_reason":"stop","documents":[[{"page_id":0,"position":[956,583,1362,590,1355,990,950,983],"paragraph_id":0,"type":"paragraph","text":"string"}]]}}

错误码说明

错误码 描述
40101 x-ti-app-id 或 x-ti-secret-code 为空
40102 x-ti-app-id 或 x-ti-secret-code 无效,验证失败
40103 客户端IP不在白名单
40003 余额不足,请充值后再使用
40004 参数错误,请查看技术文档,检查传参
40007 机器人不存在或未发布
40008 机器人未开通,请至市场开通后重试
40301 图片类型不支持
40302 上传文件大小不符,文件大小不超过 50M
40303 文件类型不支持
40304 图片尺寸不符,图像宽高须介于 20 和 10000(像素)之间
40305 识别文件未上传
40306 qps超过限制
40400 无效的请求链接,请检查链接是否正确
30203 基础服务故障,请稍后重试
500 服务器内部错误
人工咨询
技术交流群

联系我们