2022年2月19日 星期六

Azure Databricks 新功能 Files in Repos:自訂Python library有新做法

前言

在之前Blog主寫的〈Azure Databricks的543〉裡,介紹了Blog主在Databricks上的小技巧及心得。剛好Databricks出了新功能,這次則打算談一談更進階一點,在多人小組共同使用Databricks,以及高度自動化的情境下,比較方便管理及使用自訂library的新方式。

背景

隨著一個小組使用同個平台寫處理,或著同個人寫了很多處理,多多少少都會出現有部分code其實是重複的現象。最好我們把這些重複的code拿出來放在同個地方,這樣的優點是:

  • 不必每次重寫/重copy那個重複的部分
  • 當發現更有效率的寫法,或著修bug時,可以只更新一個地方
上述的優點,只要是稍微有經驗的工程師應該都能同感才是,而在寫python的時候,實現這個做法的方式就是寫自己的library,不管是直接放資料夾與py檔,還是生成egg或whl檔。Databricks在安裝公開的library其實非常方便,不過以前在安裝自訂的library就顯得彆扭很多。好在Databricks在2021年10月公開Files in Repos,讓我們能直接import自訂的py檔。本文將會詳細談論舊的方法以及新的方法。