0.2 Colab、GPU 與資料路徑設定

範例程式：

開始寫 TensorFlow 程式前，先建立穩定的執行環境與資料路徑習慣。這篇會示範如何檢查 TensorFlow 版本、GPU 是否可用、目前工作目錄、資料資料夾與常見 Colab 路徑。

這些設定看起來不像模型本身，但會直接影響後續實驗能不能重現。若一開始沒有確認環境與路徑，常見結果是程式在某次 Colab 可以跑，換到另一個 runtime、另一台電腦或另一個資料夾就失敗。

1. 學習目標

很多初學者第一次使用 Colab 時，常遇到三類問題：

不確定 TensorFlow 是否正確安裝。
不知道目前是否真的用到 GPU。
資料路徑寫死，換一台電腦或重新開 Colab 就讀不到檔案。

這篇的重點是建立固定檢查流程，讓後續 cookbook notebook 都能更順利執行。

2. Colab 執行環境基本觀念

Colab 是雲端 Notebook 環境，每次啟動 runtime 時，環境可能重新建立。因此資料、套件與目前工作目錄都應該在 notebook 一開始明確檢查。

常見檢查包含：

import tensorflow as tf

print(tf.__version__)
print(tf.config.list_physical_devices('GPU'))

若 GPU 清單是空的，代表目前 runtime 沒有使用 GPU。可以在 Colab 選單中切換：

Runtime → Change runtime type → Hardware accelerator → GPU

3. GPU 不是每個任務都一定需要

GPU 對 CNN、RNN、Transformer、大型 DNN 通常有幫助；但對小型表格資料、資料前處理或很小的模型，CPU 也能快速完成。

Info

GPU 是否有幫助，取決於模型大小、資料量與運算型態。不要只看有沒有 GPU，也要觀察訓練時間與資源使用是否合理。

4. 建議使用 pathlib 管理路徑

Python 的 pathlib.Path 可以讓路徑處理更穩定，也能避免手動串接字串造成錯誤。

from pathlib import Path

PROJECT_DIR = Path.cwd()
DATA_DIR = PROJECT_DIR / 'data'
OUTPUT_DIR = PROJECT_DIR / 'outputs'

DATA_DIR.mkdir(exist_ok=True)
OUTPUT_DIR.mkdir(exist_ok=True)

後續讀寫檔案時，建議都從這些根目錄開始管理。

5. Colab 常見資料來源

資料來源	適合情境
Colab 上傳檔案	小型臨時資料
Google Drive	個人資料集、課堂資料、較大檔案
GitHub raw 檔案	公開範例資料
TensorFlow Datasets / Keras datasets	教學與 benchmark
Kaggle API	Kaggle competition 或公開資料集

課程或教學文章若要穩定重現，建議優先使用公開資料集或將小型範例資料直接放在 repo 中。

6. 如何套用自己的資料？

套用自己的資料時，先建立清楚的資料夾結構：

project/
├── data/
│   ├── raw/
│   └── processed/
├── outputs/
│   ├── figures/
│   └── models/
└── notebooks/

在 notebook 中只修改資料根目錄，而不是在每個 cell 裡手動改路徑。

例如可以先定義：

PROJECT_DIR = Path.cwd()
DATA_DIR = PROJECT_DIR / 'data'
OUTPUT_DIR = PROJECT_DIR / 'outputs'

之後所有讀檔、存圖、存模型都從這些路徑延伸出去。當專案移到 Colab 或 GitHub 時，通常只需要調整根目錄，不需要逐格修改所有檔案路徑。

7. 小結

正式建模前，先檢查 TensorFlow 版本、硬體裝置、目前工作目錄與資料路徑。這些設定看似基礎，但能避免後續模型訓練時出現難以追蹤的環境問題。

後續 Cookbook 會反覆使用這種習慣：先確認環境，再建立資料與輸出資料夾，最後才進入模型訓練。這能讓每份 Notebook 更容易在 Colab、本機與不同專案之間重複執行。