0.2 Colab、GPU 與資料路徑設定
開始寫 TensorFlow 程式前,先建立穩定的執行環境與資料路徑習慣。這篇會示範如何檢查 TensorFlow 版本、GPU 是否可用、目前工作目錄、資料資料夾與常見 Colab 路徑。
這些設定看起來不像模型本身,但會直接影響後續實驗能不能重現。若一開始沒有確認環境與路徑,常見結果是程式在某次 Colab 可以跑,換到另一個 runtime、另一台電腦或另一個資料夾就失敗。
1. 學習目標
很多初學者第一次使用 Colab 時,常遇到三類問題:
- 不確定 TensorFlow 是否正確安裝。
- 不知道目前是否真的用到 GPU。
- 資料路徑寫死,換一台電腦或重新開 Colab 就讀不到檔案。
這篇的重點是建立固定檢查流程,讓後續 cookbook notebook 都能更順利執行。
2. Colab 執行環境基本觀念
Colab 是雲端 Notebook 環境,每次啟動 runtime 時,環境可能重新建立。因此資料、套件與目前工作目錄都應該在 notebook 一開始明確檢查。
常見檢查包含:
若 GPU 清單是空的,代表目前 runtime 沒有使用 GPU。可以在 Colab 選單中切換:
3. GPU 不是每個任務都一定需要
GPU 對 CNN、RNN、Transformer、大型 DNN 通常有幫助;但對小型表格資料、資料前處理或很小的模型,CPU 也能快速完成。
Info
GPU 是否有幫助,取決於模型大小、資料量與運算型態。不要只看有沒有 GPU,也要觀察訓練時間與資源使用是否合理。
4. 建議使用 pathlib 管理路徑
Python 的 pathlib.Path 可以讓路徑處理更穩定,也能避免手動串接字串造成錯誤。
from pathlib import Path
PROJECT_DIR = Path.cwd()
DATA_DIR = PROJECT_DIR / 'data'
OUTPUT_DIR = PROJECT_DIR / 'outputs'
DATA_DIR.mkdir(exist_ok=True)
OUTPUT_DIR.mkdir(exist_ok=True)
後續讀寫檔案時,建議都從這些根目錄開始管理。
5. Colab 常見資料來源
| 資料來源 | 適合情境 |
|---|---|
| Colab 上傳檔案 | 小型臨時資料 |
| Google Drive | 個人資料集、課堂資料、較大檔案 |
| GitHub raw 檔案 | 公開範例資料 |
| TensorFlow Datasets / Keras datasets | 教學與 benchmark |
| Kaggle API | Kaggle competition 或公開資料集 |
課程或教學文章若要穩定重現,建議優先使用公開資料集或將小型範例資料直接放在 repo 中。
6. 如何套用自己的資料?
套用自己的資料時,先建立清楚的資料夾結構:
project/
├── data/
│ ├── raw/
│ └── processed/
├── outputs/
│ ├── figures/
│ └── models/
└── notebooks/
在 notebook 中只修改資料根目錄,而不是在每個 cell 裡手動改路徑。
例如可以先定義:
之後所有讀檔、存圖、存模型都從這些路徑延伸出去。當專案移到 Colab 或 GitHub 時,通常只需要調整根目錄,不需要逐格修改所有檔案路徑。
7. 小結
正式建模前,先檢查 TensorFlow 版本、硬體裝置、目前工作目錄與資料路徑。這些設定看似基礎,但能避免後續模型訓練時出現難以追蹤的環境問題。
後續 Cookbook 會反覆使用這種習慣:先確認環境,再建立資料與輸出資料夾,最後才進入模型訓練。這能讓每份 Notebook 更容易在 Colab、本機與不同專案之間重複執行。