跳轉到

0.2 Colab、GPU 與資料路徑設定

範例程式:Open In Colab

開始寫 TensorFlow 程式前,先建立穩定的執行環境與資料路徑習慣。這篇會示範如何檢查 TensorFlow 版本、GPU 是否可用、目前工作目錄、資料資料夾與常見 Colab 路徑。

這些設定看起來不像模型本身,但會直接影響後續實驗能不能重現。若一開始沒有確認環境與路徑,常見結果是程式在某次 Colab 可以跑,換到另一個 runtime、另一台電腦或另一個資料夾就失敗。

1. 學習目標

很多初學者第一次使用 Colab 時,常遇到三類問題:

  1. 不確定 TensorFlow 是否正確安裝。
  2. 不知道目前是否真的用到 GPU。
  3. 資料路徑寫死,換一台電腦或重新開 Colab 就讀不到檔案。

這篇的重點是建立固定檢查流程,讓後續 cookbook notebook 都能更順利執行。

2. Colab 執行環境基本觀念

Colab 是雲端 Notebook 環境,每次啟動 runtime 時,環境可能重新建立。因此資料、套件與目前工作目錄都應該在 notebook 一開始明確檢查。

常見檢查包含:

import tensorflow as tf

print(tf.__version__)
print(tf.config.list_physical_devices('GPU'))

若 GPU 清單是空的,代表目前 runtime 沒有使用 GPU。可以在 Colab 選單中切換:

Runtime → Change runtime type → Hardware accelerator → GPU

3. GPU 不是每個任務都一定需要

GPU 對 CNN、RNN、Transformer、大型 DNN 通常有幫助;但對小型表格資料、資料前處理或很小的模型,CPU 也能快速完成。

Info

GPU 是否有幫助,取決於模型大小、資料量與運算型態。不要只看有沒有 GPU,也要觀察訓練時間與資源使用是否合理。

4. 建議使用 pathlib 管理路徑

Python 的 pathlib.Path 可以讓路徑處理更穩定,也能避免手動串接字串造成錯誤。

from pathlib import Path

PROJECT_DIR = Path.cwd()
DATA_DIR = PROJECT_DIR / 'data'
OUTPUT_DIR = PROJECT_DIR / 'outputs'

DATA_DIR.mkdir(exist_ok=True)
OUTPUT_DIR.mkdir(exist_ok=True)

後續讀寫檔案時,建議都從這些根目錄開始管理。

5. Colab 常見資料來源

資料來源 適合情境
Colab 上傳檔案 小型臨時資料
Google Drive 個人資料集、課堂資料、較大檔案
GitHub raw 檔案 公開範例資料
TensorFlow Datasets / Keras datasets 教學與 benchmark
Kaggle API Kaggle competition 或公開資料集

課程或教學文章若要穩定重現,建議優先使用公開資料集或將小型範例資料直接放在 repo 中。

6. 如何套用自己的資料?

套用自己的資料時,先建立清楚的資料夾結構:

project/
├── data/
│   ├── raw/
│   └── processed/
├── outputs/
│   ├── figures/
│   └── models/
└── notebooks/

在 notebook 中只修改資料根目錄,而不是在每個 cell 裡手動改路徑。

例如可以先定義:

PROJECT_DIR = Path.cwd()
DATA_DIR = PROJECT_DIR / 'data'
OUTPUT_DIR = PROJECT_DIR / 'outputs'

之後所有讀檔、存圖、存模型都從這些路徑延伸出去。當專案移到 Colab 或 GitHub 時,通常只需要調整根目錄,不需要逐格修改所有檔案路徑。

7. 小結

正式建模前,先檢查 TensorFlow 版本、硬體裝置、目前工作目錄與資料路徑。這些設定看似基礎,但能避免後續模型訓練時出現難以追蹤的環境問題。

後續 Cookbook 會反覆使用這種習慣:先確認環境,再建立資料與輸出資料夾,最後才進入模型訓練。這能讓每份 Notebook 更容易在 Colab、本機與不同專案之間重複執行。