台灣人工智慧實驗室之 Deep learning for HLA characterization

7 min readOct 18, 2021

(Communications Biology, 4, Article number: 1194, 2021)

人類白血球抗原（英語：human leukocyte antigen，縮寫為HLA），是一組與人類的免疫系統功能密切相關的重要基因群。今天來跟大家介紹我們如何利用深度學習來剖析 HLA-A、HLA-B 與 HLA-C 這三個基因的各種等位基因 (allele) 之差異。

HLA-A、HLA-B 與 HLA-C 是用來產生第一類 MHC 蛋白質 (MHC-I) 的三個基因，第一類 MHC 在人類身體中的功能，是負責辨識特定的胺基酸片段 (peptide)，然後一起移動到細胞膜上，讓T細胞知道可能有因為感染所產生的外來抗原，或是因為癌症所產生的新生抗原。舉例來說，新冠病毒入侵人體後，會利用人類的細胞製造病毒蛋白，這些蛋白質的片段就有可能被 MHC-I 辨識，進而通知 T 細胞啟動免疫反應。

https://en.wikipedia.org/wiki/MHC_class_I#/media/File:MHC_Class_I_processing.svg

人類的第一類 MHC 有很多變種，在不同人身上會有不同的版本，HLA-A 一共有 4,158 種等位基因，HLA-B 有 4,985 種，HLA-C 有 3,865 種，共 13,008 種。不同的等位基因序列會產生稍微不同的 MHC-I 蛋白質，能辨識的 peptide 序列也就不太一樣。舉例來說：我的 HLA-B 的基因型有一個是 15:01，會結合的 peptide 序列如下：

B*15:01 辨識的短序列特徵之前四碼 (左圖) 和 MHC-I 蛋白質上的重要胺基酸 (右圖)

B*15:01 辨識的短序列特徵之後四碼 (左圖) 和 MHC-I 蛋白質上的重要胺基酸 (右圖)

我的 HLA-B 的另一個等位基因是 13:02，從下圖可以看出，兩種基因型傾向結合的序列之後四碼明顯不同：

B*13:02 辨識的短序列特徵之前四碼 (左圖) 和 MHC-I 蛋白質上的重要胺基酸 (右圖)

B*13:02 辨識的短序列特徵之後四碼 (左圖) 和 MHC-I 蛋白質上的重要胺基酸 (右圖)

在人類目前已知的 MHC-I 等位基因中 (超過 13,000 種)，僅有約 150 個有實驗數據供研究人員推敲其辨識的序列特徵。為此，台灣人工智慧實驗室的基因 AI 團隊開發一個深度學習工具 MHCfovea，MHCfovea 首先利用 150 種有實驗數據的等位基因進行深度學習，再用所建立的模型預測其他 12,858 種等位基因所辨識的序列，並將所得到的序列特徵進行分群整理。

以 HLA-B 為例，雖然共有 4,985 種不同的等位基因 (會產生不同的蛋白質序列)，但能辨識的序列特徵，其前四碼 (N 端) 可歸納為七種，其後四碼 (C 端) 可歸納為五種，組合起來不超過 35 種 (下圖中還有一些空白區)。這是否顯示 HLA-B 在人類的演化過程中，雖然發展出很多變種來增加免疫系統的多樣性，但仍然有一些胺基酸片段是人類免疫系統完全不認識的?

The combination map of N-terminal and C-terminal hyper-motifs for HLA-B. [1]

Training data

MHCfovea 共使用 395,581 筆實驗數據，搭配超過 20M 的人類蛋白質序列片段來增加負樣本的數量，每一筆資料包含一條長度為 182 的蛋白質序列和一段長度為 8~15 的胺基酸片段，用來訓練深度學習模型，預測一種特定的等位基因型是否能和特定的胺基酸序列片段結合。

CNN models

為了解決正負樣本比例懸殊(1:90)的問題，MHCfovea 用運 down-sampling 的技術，先將負樣本切分成多組資料，每一組都搭配相同的正樣本建立預測模型，最後再用 ensemble 的概念將預測結果整合。

The ensemble framework with the partitioning strategy. [1]

Performance

MHCfovea 的預測準確度，比幾個現有的預測器都要來的好。其中，我們最關心的是，針對沒有看過的等位基因 (unobserved alleles) 或沒有看過的 peptide (dissimilar peptides)，MHCfovea 是否能準確預測 MHC-I 與 peptide 的結合力? 從下圖的數據可以看出，MHCfovea 在不同情境下都能比其他工具提供更好的準確度，這讓我們有信心可以利用預測的結果，針對所有等位基因 (13,008) 的結合特徵進行歸納整理。

The comparison of AUC on the four groups split from the benchmark dataset between predictors. [1]

Highlights

MHCfovea 從 13,008 個等位基因的結合特徵，歸納出 32 個等位基因的重要胺基酸與其結合特徵 (motif) 的配對關係；
我們使用深度學習模型搭配 ScoreCAM 技術，將 HLA-A、HLA-B 與 HLA-C 的重要胺基酸分別篩選出來，其中有一些是過去利用多序列比對的多型性 (polymorphism) 分析或結構分析 (34-residue) 所沒有發現的重要胺基酸 (下圖中的紅色圓圈)；

A scatterplot with linear correlation shows the relationship between polymorphism and importance of each polymorphic MHC-I residue. [1]

欲使用 MHCfovea，請連結：https://mhcfovea.ailabs.tw/

欲詳讀 MHCfovea 的研究方法，請參考：https://www.nature.com/articles/s42003-021-02716-8

MHCfovea 的程式碼亦可從網路下載：https://github.com/kohanlee1995/MHCfovea

Reference：

Ko-Han Lee, Yu-Chuan Chang, Ting-Fu Chen, Hsueh-Fen Juan, Huai-Kuang Tsai, Chien-Yu Chen*, Connecting MHC-I-binding motifs with HLA alleles via deep learning, Communications Biology, 4:1194, 2021.

台灣人工智慧實驗室 之 Deep learning for HLA characterization