兴义建设局网站水果香精东莞网站建设技术支持
2026/4/6 7:49:06 网站建设 项目流程
兴义建设局网站,水果香精东莞网站建设技术支持,泉州市网站设计企业,wordpress版本回退目录 一、什么是Ollama和DeepSeek-OCR 1.1 Ollama简介 1.2 DeepSeek-OCR简介 二、环境准备 2.1 安装Ollama 2.2 安装Python依赖 三、部署DeepSeek-OCR模型 3.1 拉取DeepSeek-OCR模型 3.2 验证模型安装 3.3 启动Ollama服务 四、Python代码实现 4.1 完整代码 4.2 代…目录一、什么是Ollama和DeepSeek-OCR1.1 Ollama简介1.2 DeepSeek-OCR简介二、环境准备2.1 安装Ollama2.2 安装Python依赖三、部署DeepSeek-OCR模型3.1 拉取DeepSeek-OCR模型3.2 验证模型安装3.3 启动Ollama服务四、Python代码实现4.1 完整代码4.2 代码详解4.2.1 encode_image函数4.2.2 ocr_image函数4.2.3 构建请求payload4.2.4 发送请求并处理响应五、实战演示5.1 准备测试图片5.2 运行代码5.3 查看结果5.3.1 文字图片5.3.2 纯图片六、应用场景七、总结一、什么是Ollama和DeepSeek-OCR1.1 Ollama简介Ollama是一个开源的大模型运行工具它支持在本地运行多种大语言模型和视觉模型。Ollama具有以下特点轻量级安装简单资源占用少跨平台支持Windows、macOS和Linux系统API友好提供REST API接口方便集成到各种应用中模型丰富支持多种开源模型包括DeepSeek系列如何安装相关说明通过Ollama本地部署DeepSeek R1以及简单使用的教程超详细 - 知乎1.2 DeepSeek-OCR简介DeepSeek-OCR是DeepSeek团队推出的OCR模型具有以下优势识别准确率高对多种字体和语言都有良好的识别效果支持多语言包括中文、英文等多种语言易于部署可以方便地通过Ollama进行本地部署二、环境准备2.1 安装OllamaWindows系统安装访问Ollama官网https://ollama.com/download点击Download for Windows按钮下载安装包运行安装程序按照提示完成安装安装完成后打开命令行终端输入以下命令验证安装ollama --version如果显示版本号说明安装成功。2.2 安装Python依赖我们需要安装Python的requests库来调用Ollama APIpip install requests三、部署DeepSeek-OCR模型3.1 拉取DeepSeek-OCR模型在命令行终端中执行以下命令来下载DeepSeek-OCR模型ollama pull deepseek-ocr:latest这个过程可能需要一些时间具体取决于你的网络速度。模型下载完成后Ollama会自动将模型存储在本地。3.2 验证模型安装可以使用以下命令查看已安装的模型列表ollama list就能看到deepseek-ocr:latest出现在列表中。3.3 启动Ollama服务Ollama安装后会自动启动服务默认监听在http://localhost:11434。如果服务没有自动启动可以手动启动Windows系统 在开始菜单中找到Ollama并启动或者在命令行中输入ollama serve运行代码测试之后会显示请求成功代表我们启动成功了。如果命令行启动不成功的话我们也可以双击运行对应桌面端应用四、Python代码实现下面我们通过完整的Python代码来实现OCR功能。代码分为几个部分图片编码、API调用、结果展示。4.1 完整代码import requests import base64 import json import os def encode_image(image_path): 将图片文件编码为base64格式 Args: image_path: 图片文件路径 Returns: base64编码的字符串 with open(image_path, rb) as image_file: return base64.b64encode(image_file.read()).decode(utf-8) def ocr_image(image_path, modeldeepseek-ocr:latest): 使用DeepSeek-OCR模型识别图片中的文字 Args: image_path: 图片文件路径 model: 使用的模型名称默认为deepseek-ocr:latest url http://localhost:11434/api/generate # 检查文件是否存在 if not os.path.exists(image_path): print(fError: File {image_path} not found.) return try: # 将图片编码为base64 base64_image encode_image(image_path) # 构建请求payload payload { model: model, prompt: Please transcribe the text in this image., images: [base64_image], stream: False } print(fSending request to Ollama (model: {model})...) # 发送POST请求 response requests.post(url, jsonpayload) # 处理响应 if response.status_code 200: result response.json() print(\n--- OCR Result ---\n) print(result.get(response, No response text found.)) print(\n------------------) else: print(fError: {response.status_code} - {response.text}) except Exception as e: print(fAn error occurred: {e}) if __name__ __main__: # 设置图片路径请根据实际情况修改 image_path rC:\Users\salute\.... ocr_image(image_path)4.2 代码详解4.2.1 encode_image函数def encode_image(image_path): with open(image_path, rb) as image_file: return base64.b64encode(image_file.read()).decode(utf-8)这个函数的作用是将图片文件转换为base64编码字符串。Ollama API要求图片数据以base64格式传输因此我们需要先进行编码。open(image_path, rb)以二进制读取模式打开图片文件base64.b64encode()将二进制数据编码为base64.decode(utf-8)将字节串解码为UTF-8字符串4.2.2 ocr_image函数def ocr_image(image_path, modeldeepseek-ocr:latest): url http://localhost:11434/api/generate if not os.path.exists(image_path): print(fError: File {image_path} not found.) return这是核心的OCR识别函数参数包括image_path要识别的图片路径model使用的模型名称默认为deepseek-ocr:latest首先检查图片文件是否存在如果不存在则直接返回。4.2.3 构建请求payloadbase64_image encode_image(image_path) payload { model: model, prompt: Please transcribe the text in this image., images: [base64_image], stream: False }构建发送给Ollama API的请求参数model指定使用的模型prompt提示词告诉模型要做什么任务imagesbase64编码的图片数据数组stream是否使用流式输出这里设置为False4.2.4 发送请求并处理响应response requests.post(url, jsonpayload) if response.status_code 200: result response.json() print(\n--- OCR Result ---\n) print(result.get(response, No response text found.)) print(\n------------------) else: print(fError: {response.status_code} - {response.text})使用requests库发送POST请求到Ollama API然后处理响应结果。如果请求成功状态码200则解析JSON响应并提取识别结果。五、实战演示5.1 准备测试图片首先准备一张包含文字的图片保存为img.png或其他格式。图片可以是扫描的文档截图包含文字的照片5.2 运行代码将代码保存为test_ocr.py然后在编译器中运行该代码5.3 查看结果5.3.1 文字图片图片对应输出内容5.3.2 纯图片图片对应输出内容六、应用场景DeepSeek-OCR结合Ollama可以在以下场景中发挥作用文档数字化将纸质文档转换为可编辑的电子文档票据处理自动识别发票、收据等票据信息图片文字提取从截图、照片中提取文字内容多语言翻译识别文字后进行翻译数据录入自动化自动将图片中的数据录入系统无障碍辅助为视障用户提供图片文字朗读服务七、总结本文详细介绍了如何使用Ollama部署DeepSeek-OCR模型并通过Python代码实现了图像文字识别功能。主要内容包括Ollama和DeepSeek-OCR的介绍环境准备和模型部署完整的Python代码实现代码详解和实战演示通过本文的学习你应该能够在本地快速搭建OCR识别系统并将其应用到实际项目中。DeepSeek-OCR和Ollama的组合为我们提供了一个强大而易用的本地OCR解决方案既保护了数据隐私又提供了高效的识别能力。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询