创建数据集#

创建数据集是使用数据集分享、数据版本管理、模型训练等功能的前提。一个完整的数据集由数据及其对应的标签组成。数据集可以通过辅助标注发布数据集本地上传数据集两种方式创建。

辅助标注发布数据集#

辅助标注发布数据集包含两个入口,即从样本集列表发布数据集和从单个标注任务发布数据集。从样本集列表发布数据集时,可同时将多个样本集发布为一个数据集。从单个标注任务发布数据集,只能将单个样本集中标注为已完成的任务发布为数据集。

从样本集列表发布数据集#

从样本集列表发布数据集的步骤如下:

  • Step1:登录Coovally平台,点击主界面左侧的辅助标注

  • Step2:进入样本集管理页,勾选单个或多个样本集并单击发布按钮。

  • Step3:在发布弹窗中,包含发布为新数据集和更新至原有数据集两种方式。选择发布为新数据集时,需要选择任务类型,样本拆分比例;选择更新至原有数据集时,需要选择任务类型、数据集名称以及数据集对应的标签。

  • Step4:设置完成后,点击确定完成发布,如下图所示。

../../_images/dataset_create1.png

注意

  • 用户仅可发布状态为已完成的样本集。

  • 目前系统支持发布目标检测、实例分割等5种任务类型的数据集。

从单个标注任务发布数据集#

从单个标注任务发布数据集的步骤如下:

  • Step1:登录Coovally平台,点击主界面左侧的辅助标注

  • Step2:进入样本集详情页,勾选处于已完成状态的标注任务,点击发布按钮,打开发布弹窗。

  • Step3:在发布弹窗中,包含发布为新数据集和更新至原有数据集两种方式。选择发布为新数据集时,需要选择任务类型,样本拆分比例;选择更新至原有数据集时,需要选择任务类型、数据集名称以及数据集对应的标签。

  • Step4:设置完成后,点击确定完成发布,如下图所示。

../../_images/dataset_create2.png

注意

  • 用户仅可发布状态为已完成的标注任务。

  • 目前系统支持发布目标检测、实例分割等5种任务类型的数据集。

本地上传数据集#

本地上传的方式创建数据集支持数据和标签压缩为一个文件上传,也支持数据和标签单独上传。

数据和标签压缩为一个文件上传#

操作步骤如下:

  • Step1:将图片、标签压缩为一个压缩包。

  • Step2:点击侧边导航栏新建按钮,选择创建数据集,打开数据集创建弹窗,选择或拖拽压缩包至上传区域,填写数据集基本信息,点击确定即可。系统将自动解析压缩包中的标签文件,并创建数据集,如下图所示。

参数说明:

  • 1.数据名称:自定义数据集名称

  • 2.版本名称:自定义数据集版本名称

  • 3.任务类型:自定义选择任务类型

  • 4.图像拆分比例:自定义设置数据集拆分比例

  • 5.版本描述:输入数据集描述

  • 6.上传文件:上传标签和数据的压缩包

../../_images/dataset_create3.png

数据和标签单独上传#

数据和标签单独上传时,需要将图片和标签分别压缩为一个文件,然后按照下面的步骤创建。

Step1:点击侧边导航栏新建按钮,选择创建数据集,打开数据集创建弹窗,选择或拖拽数据压缩包至上传区域,填写数据集基本信息,点击确定,系统将自动跳转到数据集管理页,如下图所示。

参数说明:

  • 1.数据名称:自定义数据集名称

  • 2.版本名称:自定义数据集版本名称

  • 3.任务类型:自定义选择任务类型

  • 4.图像拆分比例:自定义设置数据集拆分比例

  • 5.版本描述:输入数据集描述

  • 6.上传文件:只上传数据的压缩包

../../_images/dataset_create4.png

Step2:点击创建的数据集卡片进入数据集详情页,点击创建标签按钮打开标签创建弹窗,上传标签压缩包并输入标签基本信息,点击确定,如下图所示。

参数说明:

  • 1.标签名称:自定义名称

  • 2.任务类型:目标检测、实例分割等

  • 3.标签类型:例如COCO、YOLO等

  • 4.图像拆分比例:自定义比例

  • 5.是否自动校验标签:是:系统自动修复上传标签文件中越界标签数据;否:不自动修复

  • 6.标签描述:自定义描述

  • 7.上传文件:上传标签文件压缩包

../../_images/datasetlabel_create1.png

注意

  • 一个数据集可创建多种类型的标签。

  • 通过将数据和标签压缩为一个文件上传时,存在标签解析失败的情况。若标签解析失败,可删除解析失败的数据集,检查并修改标签之后,再次尝试上传。

  • 通过数据和标签单独上传时,数据集标签拆分比例使用的是创建标签时设置的拆分比例。

  • 图像分类任务类型的数据集,不支持手动创建标签,系统将自动创建分类标签。