angular做门户网站网站设计如何在ps先做
2026/4/6 2:15:23 网站建设 项目流程
angular做门户网站,网站设计如何在ps先做,网站怎么做404 301,推广引流渠道方法大全ICDAR2015格式怎么准备#xff1f;OCR训练数据集保姆级教程 在使用OCR文字检测模型进行微调训练时#xff0c;数据集的格式规范至关重要。尤其是当你使用像cv_resnet18_ocr-detection OCR文字检测模型 构建by科哥这类基于标准框架构建的模型时#xff0c;输入数据必须严格遵…ICDAR2015格式怎么准备OCR训练数据集保姆级教程在使用OCR文字检测模型进行微调训练时数据集的格式规范至关重要。尤其是当你使用像cv_resnet18_ocr-detection OCR文字检测模型 构建by科哥这类基于标准框架构建的模型时输入数据必须严格遵循ICDAR2015格式否则训练过程会直接报错或效果极差。本文将手把手带你从零开始准备符合ICDAR2015标准的OCR训练数据集涵盖目录结构、标注文件编写、列表生成、常见问题排查等全流程确保你一次就能成功启动训练任务。1. 什么是ICDAR2015数据格式ICDARInternational Conference on Document Analysis and Recognition是文档分析与识别领域的顶级会议其发布的公开竞赛数据集已成为OCR领域的重要基准之一。其中ICDAR2015特别关注自然场景下的文字检测任务因此被广泛用于训练和评估通用OCR检测模型。该格式的核心特点是图像为真实拍摄的自然场景图如街景、广告牌、产品包装等标注以四边形框quadrilateral形式标注文本区域每个文本框包含坐标 文本内容支持多语言、倾斜、模糊文本正因为这种灵活性和实用性很多工业级OCR模型都采用ICDAR2015作为默认训练格式。2. 数据集整体目录结构设计要让模型正确读取你的自定义数据必须严格按照以下目录结构组织文件custom_data/ ├── train_list.txt # 训练集图像与标签对应关系 ├── train_images/ # 存放所有训练图片 │ ├── 1.jpg │ └── 2.jpg ├── train_gts/ # 存放每个训练图片对应的标注文件 │ ├── 1.txt │ └── 2.txt ├── test_list.txt # 测试集图像与标签对应关系 ├── test_images/ # 存放测试图片 │ └── 3.jpg └── test_gts/ # 存放测试图片的标注文件 └── 3.txt注意这个结构是硬性要求不能随意更改路径名称或层级。如果你用的是cv_resnet18_ocr-detection镜像中的“训练微调”功能系统会自动在这个结构下查找数据。3. 如何制作训练图片和标注文件3.1 准备原始图片你可以通过以下方式获取训练图片手机拍摄实际场景中的文字如商品标签、说明书、海报截取网页或PDF中的图文区域使用合成工具生成带背景的文字图像如TextRecognitionDataGenerator建议图片清晰度高避免严重模糊或压缩失真包含不同字体、颜色、大小、方向的文字单张图片中可有多个文本块支持JPG、PNG、BMP格式3.2 编写标注文件.txt每张图片对应一个同名的.txt标注文件放在train_gts/或test_gts/目录下。标注格式说明每一行代表一个文本框格式如下x1,y1,x2,y2,x3,y3,x4,y4,文本内容(x1,y1)左上角点(x2,y2)右上角点(x3,y3)右下角点(x4,y4)左下角点最后是该框内的实际文本内容示例标注文件1.txt100,50,200,50,200,80,100,80,欢迎光临小店 300,120,450,110,455,140,305,130,全场八折优惠这表示图片中有两个文本区域分别用四边形坐标框出并附上了识别结果。特殊情况处理如果文本不可识别比如遮挡、模糊可以用###代替文本内容150,200,250,200,250,230,150,230,###多行文本每行单独写一行即可中文、英文混合直接写原文无需转码4. 生成训练/测试列表文件模型需要知道哪些图片参与训练、哪些用于验证这就靠train_list.txt和test_list.txt来指定。列表文件格式每行一条记录格式为相对路径_to_image 相对_path_to_gt_file示例train_list.txttrain_images/1.jpg train_gts/1.txt train_images/2.jpg train_gts/2.txt示例test_list.txttest_images/3.jpg test_gts/3.txt注意路径是相对于custom_data/根目录的不要加/root/或其他绝对路径前缀。5. 实战演示一步步创建你的第一个ICDAR2015数据集我们来模拟一个真实的小型数据集创建流程。第一步新建项目目录mkdir -p custom_data/{train_images,train_gts,test_images,test_gts}第二步放入图片假设你有两张训练图shop_sign_1.jpg和product_label_2.jpg一张测试图receipt_3.jpg。cp shop_sign_1.jpg custom_data/train_images/1.jpg cp product_label_2.jpg custom_data/train_images/2.jpg cp receipt_3.jpg custom_data/test_images/3.jpg第三步创建标注文件编辑custom_data/train_gts/1.txt50,60,300,60,300,90,50,90,华联超市 120,150,280,150,280,180,120,180,新鲜水果特价编辑custom_data/train_gts/2.txt80,40,400,40,400,70,80,70,有机苹果 产地山东 100,100,350,100,350,130,100,130,净重1kg 价格¥18.8编辑custom_data/test_gts/3.txt200,100,400,100,400,130,200,130,消费金额¥256.00 300,150,500,150,500,180,300,180,实付¥238.00第四步生成列表文件echo train_images/1.jpg train_gts/1.txt custom_data/train_list.txt echo train_images/2.jpg train_gts/2.txt custom_data/train_list.txt echo test_images/3.jpg test_gts/3.txt custom_data/test_list.txt完成你现在拥有了一个合法的ICDAR2015格式数据集。6. 在WebUI中配置并启动训练打开你的cv_resnet18_ocr-detectionWebUI界面进入【训练微调】Tab页。填写参数参数值训练数据目录/root/custom_data注意路径要正确挂载Batch Size8 根据GPU显存调整训练轮数5学习率0.007点击“开始训练”后台会自动执行以下操作解析train_list.txt加载训练图像读取每个.txt标注文件生成边界框构建数据增强管道旋转、缩放、色彩扰动等启动ResNet18骨干网络进行端到端训练每轮结束后在test_list.txt上做验证训练完成后模型权重将保存在workdirs/目录下可用于后续推理或导出ONNX。7. 常见错误及解决方案❌ 错误1训练失败提示“找不到标注文件”原因路径不匹配或文件名不一致解决方法确保train_list.txt中的路径拼写完全正确图片和.txt文件名字必须一致不含扩展名不要用中文命名文件❌ 错误2训练中途崩溃提示“invalid coordinate”原因坐标格式错误比如少了一个数字或用了空格分隔正确写法100,120,200,120,200,150,100,150,示例文字错误写法100 120 200 120 ... 用空格 100,120,,200,... 漏掉数值❌ 错误3检测结果全是乱框可能原因标注质量差坐标画偏了文本内容写错了图像分辨率太低建议使用专业标注工具如LabelImg、PPOCRLabel辅助标注先小规模试训2~3张图确认流程无误再扩大数据量8. 提升训练效果的实用技巧即使格式正确也不代表一定能训练出好模型。以下是几个提升效果的关键建议技巧1保持数据多样性包含横排、竖排、倾斜文字覆盖不同背景纯色、纹理、复杂图案涉及多种字体风格黑体、楷体、手写体技巧2合理设置学习率数据量 100张学习率设为0.001~0.003防止过拟合数据量 500张可用0.007~0.01加速收敛技巧3善用预训练权重本模型基于ImageNet预训练的ResNet18初始化因此即使只有几十张标注图也能快速适应新场景。技巧4定期验证效果每训练完一轮手动上传几张新图片测试检测效果观察是否出现漏检或误检趋势。9. 总结通过本文你应该已经掌握了如何从零开始准备一个符合ICDAR2015标准的OCR训练数据集。回顾一下关键步骤搭建标准目录结构train_images,train_gts,train_list.txt等缺一不可准确标注文本框四点坐标文本内容逗号分隔禁止空格生成列表文件明确指出图片与标注的对应关系在WebUI中配置路径确保模型能正确读取数据调试训练过程关注日志输出及时修正错误只要数据格式正确、标注质量过关即使是少量样本也能让cv_resnet18_ocr-detection模型快速适应你的业务场景实现精准的文字检测。下一步你可以尝试将训练好的模型导出为ONNX格式在移动端或边缘设备上部署真正实现闭环落地。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询