台灣人工智慧實驗室 之 AutoML for Genomic AI

--

Taiwan AI Labs 的基因團隊在成立後的第二年釋出了一個 AutoML 的工具 (ezGeno),最近被 Bioinformatics (https://doi.org/10.1093/bioinformatics/btab588)接受,來跟大家介紹一下。

Efficient Neural Architecture Search (ENAS)

ezGeno 使用 ENAS 來實現 AutoML,讓使用者可以省略在進行深度學習 (Deep learning) 時要事先設定網路結構 (Network architecture) 的步驟。ENAS 透過建立一個圖 (graph) 的資料結構來記錄所有可能網路結構,每一個網路結構就是一個預測模型 (model),ENAS 的 ‘controller’ 每次會從完整的圖 (稱為 ‘supernet’) 中取樣產生子圖 (sub-graph),再從子圖中取得一個模型,評估模型的好壞,ENAS 透過模型之間參數的分享,加速找到好的模型的速度。ezGeno 為基因資料設計一個簡易版的 ENAS,稱為 ezNAS,如下圖所示,ezNAS 提供較為簡潔的殘差連線 (residual connection),讓搜尋網路結構的程序更有效率。

ezGeno implemented a light version of ENAS, named ezNAS. Briefly speaking, ezNAS is different from ENAS on the sampling strategy and the design of residual connections. Our sampling strategy can debias the searching process. In addition, the design of residual connections is largely simplified. [1]

Combinations of multiple 1D features

ezGeno 的輸入層不僅能接受 DNA 序列,亦可接受序列上的特徵值,例如:DNase 或 histone modifications 等實驗數據。為了方便使用者整合各種 ChIP-seq 資料作為神經網路的輸入值,ezGeno 會針對使用者提供的檔案格式與個數,自動產生網路框架,如下圖所示,不同的輸入層將有自己獨立的網路結構搜尋空間,最後才合併至全連接層,然後輸出。

The search space for specific task — predicting enhancer activity (AcEnhancer). In this task, we search for a 2-branch model. Each branch deals with different data and composes with six layers. The NAS algorithm has to decide which convolution layer to be used and how the information pass through the residual connections on both branches. [1]

Comparison with AutoKeras

我們將 ezGeno 的表現,與另一個 AutoML 工具 AutoKeras 進行比較,從下圖可以看出,ezGeno 能在較短的時間內,找到比 AutoKeras 更好的網路結構,準確度也比人工設定的網路結構 (DeepBind) 好很多。

The performance of ezGeno on TF Binding tasks. (a) The performance of ezGeno on 10 difficult TFs, in comparison with AutoKeras and one-layer DeepBind. (b) The running time of ezGeno, in comparison with AutoKeras. [1]

更多關於 ezGeno 的細節,請參考:
https://doi.org/10.1093/bioinformatics/btab588
欲下載 ezGeno,請至:
https://github.com/ailabstw/ezGeno

Reference:

  1. Jun-Liang Lin#, Tsung-Ting Hsieh# (equal contribution), Yi-An Tung# (equal contribution), Xuan-Jun Chen, Yu-Chun Hsiao, Chia-Lin Yang*, Tyng-Luh Liu*, Chien-Yu Chen*, ezGeno: An Automatic Model Selection Package for Genomic Data Analysis, Bioinformatics, btab588, 2021.

--

--

Chien-Yu Chen 陳倩瑜

Professor, Biomechatronics Engineering, National Taiwan University