数据获取、整理与应用
一、构建可靠数据
1. 图像和视频数据爬取
1.1 四种数据获取方法
- 开源数据集

https://huggingface.co/datasets
特点:(1)数据质量高(2)成本低
外包平台(Amazon Mechanical Turk,阿里众包,百度数据众包,京东微工等)

可定制化 成本较高
自己采集与标注

特点:(1)质量高(2)效率低(3)成本高
通过网络爬虫获取

特点:(1)成本低(2)速度快
1.2 爬虫工具使用
支持Google,Bing,百度等网站,有GUl使用界面

https://github.com/sczhengyabin/Image-Downloader
1.3 视频网站爬虫
支持主流视频网站(腾讯视频,抖音等)

https://github.com/iawia002/lux
使用方法:lux[可选参数]http://...(视频网址)

爬虫合集(几乎所有可以爬取的中文网址)

https://github.com/facert/awesome-spider
2.数据获取与整理
2.1数据检查与清洗
检查与清洗(图片)
去除不好的图片

检查与清洗(文本)
- 去除停用词和特殊符号
- 停用词是指在文本中出现频率较高,但是对文本的语义分析没有帮助的词语,如“的”、“是”等。
- 特殊符号是指标点符号、数字等对于文本的语义分析没有帮助,甚至可能干扰模型的学习。

归一化
格式归一化

内容纠错
拼写纠正、语法纠正等

2.2 数据去重
名字或分辨率不同,实际内容相同的数据

相似数据
连续视频帧,相似文档,噪声污染等

常见的相似度准则:MSE距离,leveshtein距离,DNN特征距离....
2.3 数据集划分
数据子集划分
训练集,验证集,测试集3个不相交的子集

以训练集训练模型;以验证集评估模型,寻找最佳的参数;以测试集测试模型一次,其误差近似为泛化误差。
数据集难度划分
常见数据集难度划分

为什么要划分不同的难度等级呢?以人像抠图为例

3.数据标注
3.1 数据标注概述
数据标注成为行业
数据标注师成为人工智能领域中的一个新兴并且重要的就业岗位

数据标注公司
云测数据,数据堂,龙猫数据,星尘数据,文德数慧,格物钛,点我科技,曼孚科技,梦动科技,标贝科技,笑猫科技.....

数据众包平台
国外的Amazon Mechanical Turk,国内的百度众包等

3.2 数据标注工具
Label Studio
多模态数据标注工具,可以标注语音、文本,图片、视频等数据

# Requires Python >=3.8 pip install label-studio # Start the server at http://localhost:8080 label-studio
Label Studio功能
支持各类常见的机器学习任务

支持常见视觉任务:分类、目标检测、语义分割,视觉问答、OCR等任务标注
支持常见文本任务:问答、机器翻译、命名实体识别、文本摘要、关系抽取等任务标注
支持常见语音任务:语音识别、说话人分割等任务标注
Label Studio基本使用流程
注册账号->创建项目->导入文件->任务配置->人工标注->导出结果

3.3 视觉任务标注
目标检测标注

命名实体识别标注

3.4 语言任务标注案例
命名实体标注

二、数据增强方法与实践
1.数据增强
1.1 什么是数据增强
多少数据才能满足项目要求
项目中到底需要多少数据

任务类型有关,越精细任务要求越多
任务难度有关,ImageNet(每类约500个),Place365(每类约5000个)
精度要求有关(学术任务,工业级产品)
什么是数据增强
数据增强(Data Augmentation)也叫数据扩增、数据增广

在不实质性的增加数据的情况下,从有限的数据产生更多变种,让有限的数据产生等价于更多数据的价值
数据增强的作用
降低数据采集成本

充分利用已有的数据进行数据增强:可以大幅度降低数据采集与标注成本
模型过拟合风险降低,提高模型泛化能力


方法分类
总体包括单样本数据增强,多样本数据增强,样本生成等

1.2 单样本数据增强方法
采用固定的预设规则进行数据扩增

单样本几何变换-翻转
水平翻转和垂直翻转

单样本几何变换-裁剪与缩放
裁剪图片的感兴趣区域(ROI)

单样本几何变换-旋转
旋转

单样本几何变换-仿射与透视变换
仿射与透视变换是综合的几何类变换

单样本像素变换-添加噪声
不规则的黑色或者彩色斑点

单样本像素变换-添加模糊
减少各像素点值的差异,实现像素的平滑化

单样本像素变换-颜色扰动
通过对不同通道的分量进行修改,改变颜色、亮度、对比度等

单样本像素变换-更多操作
各种图像处理方法都可以使用

单样本像素变换-综合变换
特定图像的数据增强

1.3 多样本数据增强方法
基于多个样本的图像处理操作,实现新样本的合成

SamplePairing操作:随机选择两张图片分别经过基础数据增强操作处理后,叠加合成一个新的样本,标签为原样本标签中的一种。
Mixup
对图像x和标签y都进行线性插值

CutMix
直接复制粘贴样本

Mosaic
4张图片合并在一起用于训练

1.4 样本生成方法
