2026/4/6 4:19:45
网站建设
项目流程
阿里云主机做网站,最好的网站建设,后端开发工程师,上海网站建设开跟着视频学习#xff1a;【【手把手带你实战HuggingFace Transformers-入门篇】基础组件之Datasets】 https://www.bilibili.com/video/BV1Ph4y1b76w/?share_sourcecopy_webvd_source9fe9e3d550891e4a38f66eead88c8b40一、简介datasets库是一个轻量级、易用的数据集加载…跟着视频学习【【手把手带你实战HuggingFace Transformers-入门篇】基础组件之Datasets】 https://www.bilibili.com/video/BV1Ph4y1b76w/?share_sourcecopy_webvd_source9fe9e3d550891e4a38f66eead88c8b40一、简介datasets库是一个轻量级、易用的数据集加载工具支持从本地文件或Hugging Face Hub快速加载数据集适用于机器学习、自然语言处理等任务。公开数据集地址 https://huggingface.co/datasets说明Hugging Face Hub上托管了数万个公开数据集如GLUE、SQuAD、COCO等可直接通过该平台搜索和下载。文档地址 https://huggingface.co/docs/datasets/index说明官方文档提供了完整的库使用方法包括数据集加载、处理、分片、流式加载等高级功能。二、基本使用详细操作列表解析加载在线数据集方法load_dataset功能从Hugging Face Hub或指定URL加载公开数据集如glue、squad等。from datasets import load_dataset dataset load_dataset(squad) # 加载SQuAD问答数据集加载数据集特定任务/子集方法load_dataset的name或subset参数场景针对多任务数据集如multi_nli包含多个任务分支。glue包含很多任务分支dataset load_dataset(glue, namemrpc) # 加载GLUE中的MRPC子任务按数据集划分加载参数split用途直接加载训练集、验证集或测试集。train_data load_dataset(cifar10, splittrain) test_data load_dataset(cifar10, splittest)查看数据集内容操作索引dataset[0]和切片dataset[:5]输出快速预览数据字段如文本、标签等。数据集划分方法train_test_split功能将单份数据拆分为训练集和测试集支持自定义比例。split_dataset dataset.train_test_split(test_size0.1)数据选取与过滤方法select按索引选取和filter按条件过滤filtered_data dataset.filter(lambda x: x[label] ! 0) # 过滤标签为0的数据数据映射转换方法map用途批量处理数据如分词、数据增强。tokenized_data dataset.map(lambda x: tokenizer(x[text]), batchedTrue)保存与加载本地数据方法save_to_disk()和load_from_disk()场景缓存预处理后的数据集避免重复计算。dataset.save_to_disk(./processed_data) reloaded_data load_from_disk(./processed_data)三、加载本地数据集四、总结使用load_dataset加载的数据集是一个dict1、导入Datasets load_dataset方法的使用参数有 nameteding、splittrain 、切片方式加载splittrain[:100], 按照比例的方式切片 splittrain[:50%]其他的方式split[train[:50%],validation[:10%]]2、怎么取单条通过dict来取就好datasets[train][0]多条datasets[train][:2]只想看title里面的 datasets[trian][title][:5]查看列名 datasets[trian].column_names查看对应的类型 datasets[trian].features