
Dagster
Dagster 是一個現代數據協調平台,可幫助團隊構建、調度和監視可靠的數據和 AI 管道,具有集成的沿襲、可觀察性、聲明式編程模型和一流的可測試性。
https://www.dagster.io/?ref=producthunt&utm_source=aipure

產品資訊
更新時間:2025年12月05日
什麼是 Dagster
Dagster 是一個雲原生數據管道協調器,旨在開發和維護整個開發生命週期中的數據資產。它作為一個統一的控制平面,供團隊自信地構建、擴展和觀察其數據工作流程。該平台專為數據工程師構建,支持各種數據資產,包括表格、數據集、機器學習模型和報告。作為一個基於 Python 的平台,它允許用戶將其數據資產聲明為 Python 函數,並管理這些函數的運行方式,以保持資產的最新狀態。
Dagster 的主要功能
Dagster 是一個現代化的數據編排平台,提供端到端的管道管理,整合了沿襲、可觀察性和可測試性。它提供了一種 Python 中的聲明式程式設計模型,使團隊能夠構建、擴展和監控其 AI 和數據管道。該平台具有基於資產的開發、內建的測試功能、全面的監控以及與各種數據工具和服務的整合,同時保持數據品質和治理。
基於資產的框架: 使用一種聲明式方法,其中數據資產(表格、檔案、ML 模型)是核心,提供自動編目、沿襲追蹤和成本洞察
整合的測試和開發: 支援本地測試、分支部署和生產前的開發環境,從而提高程式碼品質和信心
全面的可觀察性: 提供數據管道的端到端監控,包括資產健康狀況、新鮮度監控、自定義儀表板和成本追蹤
靈活的整合: 提供與各種工具和服務(S3、Snowflake、PowerBI 等)的內建整合,同時保持模組化、與供應商無關的方法
Dagster 的使用案例
機器學習運營: 管理和維護 ML 模型在整個生命週期中,從數據準備到模型部署和監控
數據倉庫 ETL: 構建和管理複雜的數據轉換管道,具有品質檢查和沿襲追蹤
跨團隊數據協作: 使多個團隊能夠在數據專案上協同工作,同時保持治理和可見性
數據品質管理: 在整個管道中實施數據資產的自動化測試和驗證,以確保數據完整性
優點
具有本地開發支援的強大測試功能
全面的可觀察性和監控功能
與現有數據工具的靈活整合
內建的數據品質和治理功能
缺點
某些高級功能需要 Dagster+ 付費版本
對於不熟悉基於資產的開發的團隊來說,學習曲線較陡峭
如何使用 Dagster
安裝 Dagster: 使用 pip 安裝 Dagster,或通過運行 'dg' 命令檢查版本號來驗證安裝
創建一個新的 Dagster 項目: 使用 'create-dagster project my-project' 命令或 'dg scaffold' 生成一個新項目,其中包含基本結構,包括 pyproject.toml 和 src 目錄
定義資產: 創建用 @dg.asset 修飾的 Python 函數來定義您的數據資產。資產是代表表格、數據集或其他數據產品的核心構建模塊
設置依賴關係: 使用 @dg.asset 裝飾器中的 deps 參數來指定資產之間的依賴關係,從而創建數據轉換的 DAG
啟動 Dagster UI: 導航到項目根目錄並運行 'dg dev' 以啟動 Dagster Web 伺服器介面
查看資產沿襲: 通過端口 3000 訪問 Dagster UI 以查看沿襲圖,顯示您的資產之間的依賴關係
配置存儲: 設置 DAGSTER_HOME 環境變量以指定運行和資產的永久存儲位置
添加資源: 為您的資產需要與之交互的外部連接(數據庫、API)定義資源
編寫測試: 在 tests 目錄中創建測試,並使用 pytest 運行它們以驗證資產行為
部署到生產環境: 使用 Dagster Cloud 或按照部署指南將您的項目移動到生產環境
Dagster 常見問題
Dagster 是一個雲原生資料協調平台,專為資料工程師而建,提供整合的譜系、可觀察性、宣告式程式設計模型和一流的可測試性。它作為團隊構建、擴展和觀察其 AI 和資料管道的統一控制平面。











