Python零基础入门到AI应用:使用Phi-3-vision模型完成你的第一个视觉项目

张开发
2026/4/19 19:20:42 15 分钟阅读

分享文章

Python零基础入门到AI应用:使用Phi-3-vision模型完成你的第一个视觉项目
Python零基础入门到AI应用使用Phi-3-vision模型完成你的第一个视觉项目1. 为什么选择这个项目如果你刚接触Python可能会觉得编程离AI应用很遥远。其实不然今天我们就用一个有趣的项目打破这种认知——用Phi-3-vision模型开发看图说话应用。这个项目特别适合新手因为它不需要复杂的数学知识能快速看到AI的神奇效果涵盖Python最实用的几个库最终成果可以分享给朋友炫耀整个过程就像搭积木我们会从最基础的Python安装开始一步步带你完成这个项目。不用担心跟不上所有步骤都会详细解释。2. 准备工作搭建你的Python环境2.1 安装Python首先需要安装Python这是我们的工具箱。推荐使用Python 3.8或更高版本访问Python官网下载对应你操作系统的安装包Windows/macOS/Linux运行安装程序记得勾选Add Python to PATH选项完成安装后打开终端或命令提示符输入python --version检查是否安装成功2.2 安装必要的库我们需要几个Python库来完成这个项目。打开终端依次输入以下命令pip install requests pillow tk简单解释下这些库的作用requests用来和Phi-3-vision模型的API通信pillowPIL处理图片tkinter创建图形界面通常Python自带不需要单独安装3. Python基础快速上手在进入AI项目前我们先快速过一下会用到的Python基础知识。3.1 变量和数据类型Python中的变量就像贴标签# 字符串 image_path cat.jpg # 文字用引号包裹 # 数字 max_size 1024 # 直接写数字 # 列表一组数据 colors [red, green, blue]3.2 函数基础函数是一段可以重复使用的代码def describe_image(image): 这是一个描述图片的函数 # 这里会放处理图片的代码 return 这是一只可爱的猫3.3 条件判断让程序做决定if image_size 1024: print(图片太大了) else: print(图片大小合适)这些基础知识足够我们开始项目了其他内容我们会在实际编码时边做边学。4. 获取Phi-3-vision API访问权限Phi-3-vision是一个强大的视觉模型能理解图片内容。我们需要先获取API访问权限访问Phi-3官方平台示例网址注册开发者账号在控制台创建新项目获取API密钥记下API端点地址通常是https://api.phi3.example.com/v1/vision把API密钥保存在安全的地方我们稍后会用到。5. 开发看图说话应用现在进入最有趣的部分——编写我们的AI应用5.1 准备图片处理代码首先创建一个新文件vision_app.py添加以下代码from PIL import Image import requests import base64 import tkinter as tk from tkinter import filedialog def encode_image(image_path): 将图片转换为base64编码 with open(image_path, rb) as image_file: return base64.b64encode(image_file.read()).decode(utf-8)这段代码定义了一个函数能把图片转换成API能理解的格式。5.2 调用Phi-3-vision API继续在同一个文件中添加def describe_image(image_path, api_key): 调用API获取图片描述 base64_image encode_image(image_path) headers { Authorization: fBearer {api_key}, Content-Type: application/json } payload { image: base64_image, prompt: 请详细描述这张图片的内容, max_tokens: 200 } response requests.post( https://api.phi3.example.com/v1/vision, # 替换为你的API端点 headersheaders, jsonpayload ) if response.status_code 200: return response.json()[choices][0][message][content] else: return f错误{response.text}5.3 创建图形界面为了让普通用户也能使用我们添加一个简单的界面def create_gui(): 创建图形用户界面 window tk.Tk() window.title(看图说话AI) def select_image(): file_path filedialog.askopenfilename() if file_path: description describe_image(file_path, 你的API密钥) # 替换为你的API密钥 result_text.delete(1.0, tk.END) result_text.insert(tk.END, description) tk.Button(window, text选择图片, commandselect_image).pack(pady20) result_text tk.Text(window, height10, width50) result_text.pack() window.mainloop() if __name__ __main__: create_gui()6. 运行你的第一个AI应用保存文件后在终端运行python vision_app.py你会看到一个简单窗口点击选择图片按钮选择一张你想分析的图片稍等片刻AI就会返回对图片的描述试试不同的图片看看AI能识别出多少细节7. 项目总结与下一步恭喜你已经完成了第一个Python AI项目。回顾一下我们学到的搭建Python开发环境使用requests库调用API用Pillow处理图片创建简单的图形界面集成先进的视觉AI模型这个项目还有很多可以扩展的地方添加多语言支持实现批量图片处理增加图片编辑功能把应用打包成可执行文件最重要的是你已经证明了即使是编程新手也能做出有趣的AI应用。保持这种学习热情Python的世界还有很多精彩等着你去探索获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

更多文章