前言:数据工程师是从传统软件工程师向东说念主工智能地点转型的最好切入点之一。数据工程师的职责不绝是为东说念主工智能模样汇注和准备高质地的教师数据集,包括从互联网上赢得公开数据、或自行采集、清洗、整理数据集。尽管看似粗陋,但数据工程师的职责至关窒碍,因为数据质地径直影响模子的性能,数据准备不当可能导致模子设立失败。本文接下来的几个末节将主要阐扬在谷歌的TensorFlow平台上若何使用自带数据集、第三方公开数据集以及自界说的数据集来守旧模子教师。
在本文的前几节中,咱们内容上照旧使用了多种数据集来教师模子,从Keras自带的Fashion MNIST数据集,到需要下载并预管束的图像数据集如“Horses or Humans”和“Dogs vs. Cats”。咱们可能照旧意志到,赢得教师模子的数据有好多不同的方法。
但是,许多大派别据集条件咱们在狡计模子架构之前,先掌执各式特定限度的妙技。TensorFlow Datasets (TFDS)的指标等于简化数据的赢得方式,使数据更易于使用,因为扫数赢得数据的预管束局势和将数据转机为TensorFlow友好局势的操作齐已为咱们准备好。
在第1和第2篇中,咱们照旧看到了Keras管束Fashion MNIST数据集的这种理念。转头一下,其时咱们只需这么作念就不错赢得数据:
data = tf.keras.datasets.fashion_mnist
(training_images, training_labels), (test_images, test_labels) = data.load_data()
TFDS基于这种理念,极地面膨胀了可用数据集的数目和千般性。可用数据集的列表正在不停增长,涵盖以下类别:
• 音频:包括语音和音乐数据
• 图像:从“Horses or Humans”这么的基础学习数据集到如糖尿病视网膜病变检测等高等联总计据集
• 指标检测:包括COCO、Open Images等
• 结构化数据:包括“泰坦尼克号幸存者”、亚马逊挑剔等
• 纲目生成:包括CNN和Daily Mail新闻、科学论文、wikiHow等
• 文本:包括IMDb挑剔、当然言语问题等
• 翻译:包括各式翻译教师数据集
• 视频:包括“Moving MNIST”、“星际争霸”等
请持重,TensorFlow Datasets是沉寂于TensorFlow的装配包,因此在运行任何示例之前务必先装配它!若是咱们使用的是Google Colab,它照旧预装了。
本章将先容TFDS过火若何大大简化教师流程。咱们将探索其底层的TFRecord结构,这一结构不错在不同类型的基础数据间提供一致性。咱们还将了解若何使用TFDS的索要-调度-加载(ETL)模式,以高效地管束无数数据来教师模子。
启动使用TFDS
让咱们通过一些粗陋的例子来望望若何使用TFDS,以展示它若何为咱们提供数据的措施接口,无论数据类型若何。
若是你需要装配它,不错通过以下pip高歌完成:
pip install tensorflow-datasets
装配完成后,你不错通过tfds.load拜访一个数据集,只需传入所需数据集的称呼。举例,若是你思使用Fashion MNIST数据集,不错使用以下代码:
import tensorflow as tf
import tensorflow_datasets as tfds
mnist_data = tfds.load("fashion_mnist")
for item in mnist_data:
print(item)
务必检查从tfds.load高歌复返的数据类型——打印item的输出将是数据聚首自己可用的不同分割。在这个例子中,它是一个包含两个字符串“test”和“train”的字典。这些是可用的分割。
若是你思将这些分割加载到包含内容数据的数据聚首,只需在tfds.load高歌中指定所需的分割,举例:
mnist_train = tfds.load(name="fashion_mnist", split="train")
assert isinstance(mnist_train, tf.data.Dataset)
print(type(mnist_train))
在这种情况下,你会看到输出是一个DatasetAdapter,你不错遍历它来检查数据。这个适配器的一个克己是不错径直调用take(1)来赢得第一笔纪录。让咱们来检查一下数据的形式:
for item in mnist_train.take(1):
print(type(item))
print(item.keys())
第一个print的输出会显现每笔纪录中的item类型是一个字典。当咱们打印其键时,不错看到在此图像数据聚首,类型是“image”和“label”。是以,若是咱们思检查数据聚首的某个值,不错这么作念:
for item in mnist_train.take(1):
print(type(item))
print(item.keys())
print(item['image'])
print(item['label'])
你会看到“image”的输出是一个28 × 28的数组(在一个tf.Tensor中),取值鸿沟是0–255,示意像素强度。“label”会输出为tf.Tensor(2, shape=(), dchk=1&type=int64),教唆该图像在数据聚首属于类别2。
在加载数据集时,还不错使用with_info参数来赢得数据集的有关信息,举例:
mnist_test, info = tfds.load(name="fashion_mnist", with_info=True)
print(info)
打印info会提供数据集内容的详备信息。举例,关于Fashion MNIST,你会看到如下输出:
tfds.core.DatasetInfo(
name='fashion_mnist',
version=3.0.0,
description='Fashion-MNIST是一个包含Zalando商品图像的数据集,包含6万个教师样本和1万个测试样本。每个样本是一个28x28的灰度图像,与10个类别中的某个标签有联系。',
homepage='https://github.com/zalandoresearch/fashion-mnist',
features=FeaturesDict({
'image': Image(shape=(28, 28, 1), dchk=1&type=tf.uint8),
'label': ClassLabel(shape=(), dchk=1&type=tf.int64, num_classes=10),
}),
total_num_examples=70000,
splits={
'test': 10000,
'train': 60000,
},
supervised_keys=('image', 'label'),
citation="""@article{DBLP:journals/corr/abs-1708-07747,
author = {Han Xiao and
Kashif Rasul and
Roland Vollgraf},
title = {Fashion-MNIST: a Novel Image Dataset for Benchmarking Machine Learning Algorithms},
journal = {CoRR},
volume = {abs/1708.07747},
year = {2017},
url = {http://arxiv.org/abs/1708.07747},
archivePrefix = {arXiv},
eprint = {1708.07747},
timestamp = {Mon, 13 Aug 2018 16:47:27 +0200},
biburl = {https://dblp.org/rec/bib/journals/corr/abs-1708-07747},
bibsource = {dblp computer science bibliography, https://dblp.org}
""",
redistribution_info=,
)
在这里,你不错看到数据集的详备信息,比如前边演示过的分割和数据聚首的特征,还有疏淡的信息如援用、形色和数据集版块。
本节主要为TFDS的使用作念了一个初学先容九游会J9·(china)官方网站-真人游戏第一品牌,接下来的两章将详备阐述如安在内容场景中使用它。TFDS是TensorFlow Datasets的简称。TensorFlow Datasets是一个荒谬为东说念主工智能和机器学习模子设立提供守旧的库,内含多种预管束好的数据集,浅薄用户径直在TensorFlow中使用,免去了编写复杂的数据导入和预管束代码的局势。