- 大模型加速器
- 通用文档解析
- 通用文本向量
- 智能文档抽取
- 通用识别
- 图像智能处理
- 票据识别
- AI篡改检测
- 卡证识别
- 合同比对
- 合同抽取
- 财务相关API
功能描述
general information extration
智能文档抽取服务-API文档
请求URL
https://api.textin.com/ai/service/v1/entity_extraction
HTTP请求方法(Method)
HTTP POST
请求头说明(Request Headers)
请在HTTP请求中添加以下自定义标头(Header)。
header 名 | 值 |
---|---|
x-ti-app-id | 请登录后前往 “工作台-账号设置-开发者信息” 查看 x-ti-app-id |
x-ti-secret-code | 请登录后前往 “工作台-账号设置-开发者信息” 查看 x-ti-secret-code |
URL参数(Parameters)
URL参数指以{参数名}={参数值} 形式拼接到 URL 上的键值对。它以
?
开头,不同参数之间使用&
连接。形如?p1=v1&p2=v2
参数名 | 数据类型 | 是否必填 | 允许的值 | 描述 | ||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
ie_type | string | 否 | close_ie, auto_structure |
信息抽取类型,不传时默认为
|
||||||||||||
key | string | 否 | 见描述 |
单值抽取时要抽取的key
当type=auto_structure时该参数无效 |
||||||||||||
table_header | string | 否 | 见描述 |
表格抽取时要抽取的表格列头,参考 当type=auto_structure时该参数无效 如下表,若抽取表格信息,请求示例:
|
||||||||||||
file_name | string | 否 | 见描述 |
待抽取样本的文件名(含后缀名) |
请求体说明(Request Body)
支持以下两种请求格式
1. Content-Type: application/octet-stream
支持的文件格式:png, jpg, jpeg, doc, docx, pdf, ofd, xlsx, xls;文档最大处理页数为20页,抽取的key与table_header最大数量之和为30个,超出最大限制优先取key。
请注意,请求体的数据格式为本地文件的二进制流,非 FormData 或其他格式。文件大小不超过 50M,图像宽高须介于 20 和 10000(像素)之间。
2. Content-Type: text/plain
请求体的数据格式为文本,内容为在线文件的URL链接(支持http以及https协议)。在线文件大小不超过 50M,图像宽高须介于 20 和 10000(像素)之间。
响应体说明 (Response)
Content-Type: application/json
JSON结构说明如下:
字段名 | 类型 | 描述 |
---|---|---|
version | string |
版本号 |
code | integer | 错误码,详见“错误码说明” |
message | string |
错误信息 |
duration | integer |
推理时间(ms) |
result | object | |
+ category | object |
|
++ additionalProp1 | string |
|
++ additionalProp2 | string |
|
++ additionalProp3 | string |
|
++ row | string |
表格类型 |
+ rotated_image_width | integer |
正方向时文档的宽,仅文档为图片时其值有效 |
+ rotated_image_height | integer |
正方向时文档高,仅文档为图片时其值有效 |
+ page_count | integer |
智能文档抽取处理的文档页数,超过最大页数限制时(20页),返回为最大页数 当url参数 |
+ image_angle | integer |
文档角度,指原文档需要经过顺时针旋转多少度,才能得到正方向的文档,仅文档为图片时其值有效 |
+ details | object |
文档抽取结果 |
++ additionalProp1 | object | |
+++ value | string |
字段识别结果 |
+++ position | array |
识别的value在原图中的坐标是个长度为8的数组 [0,1,2,3,4,5,6,7]
|
+++ description | string |
字段中文描述 |
+++ lines | ||
++ additionalProp2 | object | |
+++ value | string |
字段识别结果 |
+++ position | array |
识别的value在原图中的坐标是个长度为8的数组 [0,1,2,3,4,5,6,7]
|
+++ description | string |
字段中文描述 |
++ additionalProp3 | object | |
+++ value | string |
字段识别结果 |
+++ position | array |
识别的value在原图中的坐标是个长度为8的数组 [0,1,2,3,4,5,6,7]
|
+++ description | string |
字段中文描述 |
++ row | array |
table_header的抽取结果(当url参数 |
+ detail_structure | array |
字段的识别信息 |
++ doc_type | string |
文档的类型(仅当url参数 |
++ page_range | array |
抽取的信息所在页范围 |
++ tables | array |
表格信息 |
+++ position | array |
坐标 |
+++ page_number | number |
所在页 |
+++ text | string |
html形式的表格 |
++ tables_relationship | array |
表格的结构化信息(当url参数 |
+++ row_count | number |
行数 |
+++ column_count | number |
列数 |
+++ cells | array |
单元格信息 |
++++ additionalProp1 | array | |
+++++ value | string |
字段识别结果 |
+++++ bounding_regions | array |
边界框信息 |
++++++ page_number | integer |
所在页码 |
++++++ value | string |
文本内容 |
++++++ position | array |
文本的坐标 |
++++++ char_pos | array |
每个字符的坐标 |
++++ additionalProp2 | array | |
+++++ value | string |
字段识别结果 |
+++++ bounding_regions | array |
边界框信息 |
++++++ page_number | integer |
所在页码 |
++++++ value | string |
文本内容 |
++++++ position | array |
文本的坐标 |
++++++ char_pos | array |
每个字符的坐标 |
++++ additionalProp3 | array | |
+++++ value | string |
字段识别结果 |
+++++ bounding_regions | array |
边界框信息 |
++++++ page_number | integer |
所在页码 |
++++++ value | string |
文本内容 |
++++++ position | array |
文本的坐标 |
++++++ char_pos | array |
每个字符的坐标 |
+++ title | string |
title |
++ category | array |
结构化抽取出来的所有字段 |
++ fields | object |
提取的字段结构化结果 |
+++ additionalProp1 | array | |
++++ value | string |
字段识别结果 |
++++ bounding_regions | array |
边界框信息 |
+++++ page_number | integer |
所在页码 |
+++++ value | string |
文本内容 |
+++++ position | array |
文本的坐标 |
+++++ char_pos | array |
每个字符的坐标 |
+++ additionalProp2 | array | |
++++ value | string |
字段识别结果 |
++++ bounding_regions | array |
边界框信息 |
+++++ page_number | integer |
所在页码 |
+++++ value | string |
文本内容 |
+++++ position | array |
文本的坐标 |
+++++ char_pos | array |
每个字符的坐标 |
+++ additionalProp3 | array | |
++++ value | string |
字段识别结果 |
++++ bounding_regions | array |
边界框信息 |
+++++ page_number | integer |
所在页码 |
+++++ value | string |
文本内容 |
+++++ position | array |
文本的坐标 |
+++++ char_pos | array |
每个字符的坐标 |
++ stamps | array |
印章识别结果 |
+++ color | string |
当前印章颜色
|
+++ position | array |
印章的坐标信息 |
+++ stamp_shape | string |
当前印章形状
|
+++ type | string |
当前印章类型
|
+++ value | string |
印章的文本内容 |
+ finish_reason | string |
推理结束的原因
|
+ documents | array |
文档每一页的文档元素信息 |
++ page_id | integer |
所在页 |
++ position | array |
坐标信息 |
++ paragraph_id | integer |
当前段落id |
++ type | string |
当前元素的类型
|
++ text | string |
文字信息 |
JSON结构示例
错误码说明
错误码 | 描述 |
---|---|
40101 | x-ti-app-id 或 x-ti-secret-code 为空 |
40102 | x-ti-app-id 或 x-ti-secret-code 无效,验证失败 |
40103 | 客户端IP不在白名单 |
40003 | 余额不足,请充值后再使用 |
40004 | 参数错误,请查看技术文档,检查传参 |
40007 | 机器人不存在或未发布 |
40008 | 机器人未开通,请至市场开通后重试 |
40301 | 图片类型不支持 |
40302 | 上传文件大小不符,文件大小不超过 50M |
40303 | 文件类型不支持 |
40304 | 图片尺寸不符,图像宽高须介于 20 和 10000(像素)之间 |
40305 | 识别文件未上传 |
40306 | qps超过限制 |
40400 | 无效的请求链接,请检查链接是否正确 |
30203 | 基础服务故障,请稍后重试 |
500 | 服务器内部错误 |