WikiWiki
首页
Java开发
Java面试
Linux手册
  • AI相关
  • Python Flask
  • Pytorch
  • youlo8
SEO
uniapp小程序
Vue前端
work
数据库
软件设计师
入门指南
首页
Java开发
Java面试
Linux手册
  • AI相关
  • Python Flask
  • Pytorch
  • youlo8
SEO
uniapp小程序
Vue前端
work
数据库
软件设计师
入门指南

数据获取、整理与应用

一、构建可靠数据

1. 图像和视频数据爬取

1.1 四种数据获取方法

  • 开源数据集

image-20250909092255368

  • https://huggingface.co/datasets

  • 特点:(1)数据质量高(2)成本低

  • 外包平台(Amazon Mechanical Turk,阿里众包,百度数据众包,京东微工等)image-20250909092440222

  • 可定制化 成本较高

  • 自己采集与标注

    image-20250909092608144

  • 特点:(1)质量高(2)效率低(3)成本高

  • 通过网络爬虫获取

    image-20250909092807578

  • 特点:(1)成本低(2)速度快

1.2 爬虫工具使用

  • 支持Google,Bing,百度等网站,有GUl使用界面

    image-20250909092940955

  • https://github.com/sczhengyabin/Image-Downloader

1.3 视频网站爬虫

  • 支持主流视频网站(腾讯视频,抖音等)

    image-20250909094331421

  • https://github.com/iawia002/lux

  • 使用方法:lux[可选参数]http://...(视频网址)

    image-20250909094629824

  • 爬虫合集(几乎所有可以爬取的中文网址)

    image-20250909094722100

    https://github.com/facert/awesome-spider

2.数据获取与整理

2.1数据检查与清洗

检查与清洗(图片)

  • 去除不好的图片

    image-20250909095120345

检查与清洗(文本)

  • 去除停用词和特殊符号
    • 停用词是指在文本中出现频率较高,但是对文本的语义分析没有帮助的词语,如“的”、“是”等。
    • 特殊符号是指标点符号、数字等对于文本的语义分析没有帮助,甚至可能干扰模型的学习。

image-20250909095358399

归一化

  • 格式归一化

    image-20250909095543555

内容纠错

  • 拼写纠正、语法纠正等

    image-20250909095640384

2.2 数据去重

  • 名字或分辨率不同,实际内容相同的数据

    image-20250909095848695

相似数据

  • 连续视频帧,相似文档,噪声污染等

    image-20250909100032322

  • 常见的相似度准则:MSE距离,leveshtein距离,DNN特征距离....

2.3 数据集划分

数据子集划分

  • 训练集,验证集,测试集3个不相交的子集

    image-20250909100342235

  • 以训练集训练模型;以验证集评估模型,寻找最佳的参数;以测试集测试模型一次,其误差近似为泛化误差。

数据集难度划分

  • 常见数据集难度划分

    image-20250909100812520

  • 为什么要划分不同的难度等级呢?以人像抠图为例

    image-20250909100959545

3.数据标注

3.1 数据标注概述

数据标注成为行业

  • 数据标注师成为人工智能领域中的一个新兴并且重要的就业岗位

    image-20250909101258233

数据标注公司

  • 云测数据,数据堂,龙猫数据,星尘数据,文德数慧,格物钛,点我科技,曼孚科技,梦动科技,标贝科技,笑猫科技.....

    image-20250909101419372

数据众包平台

  • 国外的Amazon Mechanical Turk,国内的百度众包等

    image-20250909101523388

3.2 数据标注工具

Label Studio

  • 多模态数据标注工具,可以标注语音、文本,图片、视频等数据

    image-20250909101615318

    # Requires Python >=3.8
    pip install label-studio
    # Start the server at http://localhost:8080
    label-studio
    

Label Studio功能

  • 支持各类常见的机器学习任务

    image-20250909101757921

  • 支持常见视觉任务:分类、目标检测、语义分割,视觉问答、OCR等任务标注

  • 支持常见文本任务:问答、机器翻译、命名实体识别、文本摘要、关系抽取等任务标注

  • 支持常见语音任务:语音识别、说话人分割等任务标注

Label Studio基本使用流程

  • 注册账号->创建项目->导入文件->任务配置->人工标注->导出结果

    image-20250909102121130

3.3 视觉任务标注

  • 目标检测标注

    image-20250909102140374

  • 命名实体识别标注

    image-20250909102213851

3.4 语言任务标注案例

命名实体标注

image-20250909110016291

二、数据增强方法与实践

1.数据增强

1.1 什么是数据增强

多少数据才能满足项目要求

  • 项目中到底需要多少数据

    image-20250909110337448

  • 任务类型有关,越精细任务要求越多

  • 任务难度有关,ImageNet(每类约500个),Place365(每类约5000个)

  • 精度要求有关(学术任务,工业级产品)

什么是数据增强

  • 数据增强(Data Augmentation)也叫数据扩增、数据增广

    image-20250909110525659

  • 在不实质性的增加数据的情况下,从有限的数据产生更多变种,让有限的数据产生等价于更多数据的价值

数据增强的作用

  • 降低数据采集成本

    image-20250909110626168

  • 充分利用已有的数据进行数据增强:可以大幅度降低数据采集与标注成本

  • 模型过拟合风险降低,提高模型泛化能力

    image-20250909110738738

    image-20250909110811432

方法分类

  • 总体包括单样本数据增强,多样本数据增强,样本生成等

    image-20250909110909502

1.2 单样本数据增强方法

  • 采用固定的预设规则进行数据扩增

    image-20250909111034032

单样本几何变换-翻转

  • 水平翻转和垂直翻转

    image-20250909111133601

单样本几何变换-裁剪与缩放

  • 裁剪图片的感兴趣区域(ROI)

    image-20250909111606047

单样本几何变换-旋转

  • 旋转

    image-20250909111653083

单样本几何变换-仿射与透视变换

  • 仿射与透视变换是综合的几何类变换

    image-20250909111730170

单样本像素变换-添加噪声

  • 不规则的黑色或者彩色斑点

    image-20250909111853970

单样本像素变换-添加模糊

  • 减少各像素点值的差异,实现像素的平滑化

    image-20250909111924401

单样本像素变换-颜色扰动

  • 通过对不同通道的分量进行修改,改变颜色、亮度、对比度等

    image-20250909112036771

单样本像素变换-更多操作

  • 各种图像处理方法都可以使用

    image-20250909112152068

单样本像素变换-综合变换

  • 特定图像的数据增强

    image-20250909112241437

1.3 多样本数据增强方法

  • 基于多个样本的图像处理操作,实现新样本的合成

    image-20250909112409697

  • SamplePairing操作:随机选择两张图片分别经过基础数据增强操作处理后,叠加合成一个新的样本,标签为原样本标签中的一种。

Mixup

  • 对图像x和标签y都进行线性插值

    image-20250909112508409

CutMix

  • 直接复制粘贴样本

    image-20250909112706512

Mosaic

  • 4张图片合并在一起用于训练

    image-20250909112812810

1.4 样本生成方法

最近更新:: 2025/9/9 16:20
Contributors: yanpeng_