台灣人工智慧實驗室 之 AutoML for Genomic AI
Taiwan AI Labs 的基因團隊在成立後的第二年釋出了一個 AutoML 的工具 (ezGeno),最近被 Bioinformatics (https://doi.org/10.1093/bioinformatics/btab588)接受,來跟大家介紹一下。
Efficient Neural Architecture Search (ENAS)
ezGeno 使用 ENAS 來實現 AutoML,讓使用者可以省略在進行深度學習 (Deep learning) 時要事先設定網路結構 (Network architecture) 的步驟。ENAS 透過建立一個圖 (graph) 的資料結構來記錄所有可能網路結構,每一個網路結構就是一個預測模型 (model),ENAS 的 ‘controller’ 每次會從完整的圖 (稱為 ‘supernet’) 中取樣產生子圖 (sub-graph),再從子圖中取得一個模型,評估模型的好壞,ENAS 透過模型之間參數的分享,加速找到好的模型的速度。ezGeno 為基因資料設計一個簡易版的 ENAS,稱為 ezNAS,如下圖所示,ezNAS 提供較為簡潔的殘差連線 (residual connection),讓搜尋網路結構的程序更有效率。

Combinations of multiple 1D features
ezGeno 的輸入層不僅能接受 DNA 序列,亦可接受序列上的特徵值,例如:DNase 或 histone modifications 等實驗數據。為了方便使用者整合各種 ChIP-seq 資料作為神經網路的輸入值,ezGeno 會針對使用者提供的檔案格式與個數,自動產生網路框架,如下圖所示,不同的輸入層將有自己獨立的網路結構搜尋空間,最後才合併至全連接層,然後輸出。

Comparison with AutoKeras
我們將 ezGeno 的表現,與另一個 AutoML 工具 AutoKeras 進行比較,從下圖可以看出,ezGeno 能在較短的時間內,找到比 AutoKeras 更好的網路結構,準確度也比人工設定的網路結構 (DeepBind) 好很多。

更多關於 ezGeno 的細節,請參考:
https://doi.org/10.1093/bioinformatics/btab588
欲下載 ezGeno,請至:
https://github.com/ailabstw/ezGeno
Reference:
- Jun-Liang Lin#, Tsung-Ting Hsieh# (equal contribution), Yi-An Tung# (equal contribution), Xuan-Jun Chen, Yu-Chun Hsiao, Chia-Lin Yang*, Tyng-Luh Liu*, Chien-Yu Chen*, ezGeno: An Automatic Model Selection Package for Genomic Data Analysis, Bioinformatics, btab588, 2021.