图像内容理解-图像智能分析-图片内容理解API接口介绍

张开发
2026/4/14 15:18:01 15 分钟阅读

分享文章

图像内容理解-图像智能分析-图片内容理解API接口介绍
简介图像内容理解即采用图像理解视觉大模型可多维度识别与理解图片内容包括人、物、行为、场景、文字等支持输出对图片内容的一句话描述同时返回图片的分类标签、文字内容等信息。主要功能包括图片理解与内容描述多维度理解图片内容支持输出对图片内容的一句话描述结合大语言模型可应用于看图问答、视觉推理等场景。物体和场景全识别识别动物、植物、商品、建筑、风景、动漫、食材、公众人物等10万个常见物体及场景支持拼接返回大类及细分类名称。图片文字全识别检测并识别图片内的全部文字信息涵盖文档、证件等常见场景支持输出文字内容及文字位置。API介绍图像内容理解服务涉及 2 个接口分别为图像内容理解-提交请求支持传入图片、提问等参数创建图像内容理解任务该接口会返回任务ID。图像内容理解-获取结果在任务成功创建后支持传入任务ID查看任务处理的状态、获取处理完成后返回的结果。详细说明请参考此处提交请求请求参数名称类型必须说明imageString否图片的base64urlString否图片完整 urlurl 长度不超过 1024 字节questionString是提问信息如“这张图片里有什么”、“图中的人物是谁并进行简单介绍”,限制 100 个字符之内image、url 必须提供一个优先级url base64。大小不超过10M最短边至少64px最长边最大8192px图片格式支持jpg/jpeg/png格式。超过4096px的图片将被自动等比例压缩至4096px进行处理压缩后会影响处理效果返回样例{code:200,// 返回码详见返回码说明msg:成功,// 返回码对应描述taskNo:043439882226367117195632,// 本次请求号data:{taskId:xxxx//用于获取结果}}获取结果请求参数名称类型必须说明taskIdString是提交请求接口返回的taskId返回样例{code:200,//返回码详见返回码说明msg:成功,//返回码对应描述taskNo:571436032193067500962066,//本次请求号data:{resultCode:0,//任务状态0处理成功1处理中description:这张图里面有\n\n1. 一个人正在讲台上讲话 xxxxxx,//针对输入的 question 问题对图片内容进行分析后输出的答案resultMsg:处理成功//任务状态描述}}

更多文章