台灣人工智慧實驗室 之 Deep learning for HLA characterization

Chien-Yu Chen 陳倩瑜
7 min readOct 18, 2021

--

(Communications Biology, 4, Article number: 1194, 2021)

人類白血球抗原(英語:human leukocyte antigen,縮寫為HLA),是一組與人類的免疫系統功能密切相關的重要基因群。今天來跟大家介紹我們如何利用深度學習來剖析 HLA-A、HLA-B 與 HLA-C 這三個基因的各種等位基因 (allele) 之差異。

HLA-A、HLA-B 與 HLA-C 是用來產生第一類 MHC 蛋白質 (MHC-I) 的三個基因,第一類 MHC 在人類身體中的功能,是負責辨識特定的胺基酸片段 (peptide),然後一起移動到細胞膜上,讓T細胞知道可能有因為感染所產生的外來抗原,或是因為癌症所產生的新生抗原。舉例來說,新冠病毒入侵人體後,會利用人類的細胞製造病毒蛋白,這些蛋白質的片段就有可能被 MHC-I 辨識,進而通知 T 細胞啟動免疫反應。

https://en.wikipedia.org/wiki/MHC_class_I#/media/File:MHC_Class_I_processing.svg

人類的第一類 MHC 有很多變種,在不同人身上會有不同的版本,HLA-A 一共有 4,158 種等位基因,HLA-B 有 4,985 種,HLA-C 有 3,865 種,共 13,008 種。不同的等位基因序列會產生稍微不同的 MHC-I 蛋白質,能辨識的 peptide 序列也就不太一樣。舉例來說:我的 HLA-B 的基因型有一個是 15:01,會結合的 peptide 序列如下:

B*15:01 辨識的短序列特徵之四碼 (左圖) 和 MHC-I 蛋白質上的重要胺基酸 (右圖)
B*15:01 辨識的短序列特徵之四碼 (左圖) 和 MHC-I 蛋白質上的重要胺基酸 (右圖)

我的 HLA-B 的另一個等位基因是 13:02,從下圖可以看出,兩種基因型傾向結合的序列之四碼明顯不同:

B*13:02 辨識的短序列特徵之四碼 (左圖) 和 MHC-I 蛋白質上的重要胺基酸 (右圖)
B*13:02 辨識的短序列特徵之四碼 (左圖) 和 MHC-I 蛋白質上的重要胺基酸 (右圖)

在人類目前已知的 MHC-I 等位基因中 (超過 13,000 種),僅有約 150 個有實驗數據供研究人員推敲其辨識的序列特徵。為此,台灣人工智慧實驗室的基因 AI 團隊開發一個深度學習工具 MHCfovea,MHCfovea 首先利用 150 種有實驗數據的等位基因進行深度學習,再用所建立的模型預測其他 12,858 種等位基因所辨識的序列,並將所得到的序列特徵進行分群整理。

MHCfovea 的預測與分析流程

以 HLA-B 為例,雖然共有 4,985 種不同的等位基因 (會產生不同的蛋白質序列),但能辨識的序列特徵,其前四碼 (N 端) 可歸納為七種,其後四碼 (C 端) 可歸納為五種,組合起來不超過 35 種 (下圖中還有一些空白區)。這是否顯示 HLA-B 在人類的演化過程中,雖然發展出很多變種來增加免疫系統的多樣性,但仍然有一些胺基酸片段是人類免疫系統完全不認識的?

The combination map of N-terminal and C-terminal hyper-motifs for HLA-B. [1]

Training data

MHCfovea 共使用 395,581 筆實驗數據,搭配超過 20M 的人類蛋白質序列片段來增加負樣本的數量,每一筆資料包含一條長度為 182 的蛋白質序列和一段長度為 8~15 的胺基酸片段,用來訓練深度學習模型,預測一種特定的等位基因型是否能和特定的胺基酸序列片段結合。

CNN models

為了解決正負樣本比例懸殊(1:90)的問題,MHCfovea 用運 down-sampling 的技術,先將負樣本切分成多組資料,每一組都搭配相同的正樣本建立預測模型,最後再用 ensemble 的概念將預測結果整合。

The ensemble framework with the partitioning strategy. [1]

Performance

MHCfovea 的預測準確度,比幾個現有的預測器都要來的好。其中,我們最關心的是,針對沒有看過的等位基因 (unobserved alleles) 或沒有看過的 peptide (dissimilar peptides),MHCfovea 是否能準確預測 MHC-I 與 peptide 的結合力? 從下圖的數據可以看出,MHCfovea 在不同情境下都能比其他工具提供更好的準確度,這讓我們有信心可以利用預測的結果,針對所有等位基因 (13,008) 的結合特徵進行歸納整理。

The comparison of AUC on the four groups split from the benchmark dataset between predictors. [1]

Highlights

  • MHCfovea 從 13,008 個等位基因的結合特徵,歸納出 32 個等位基因的重要胺基酸與其結合特徵 (motif) 的配對關係;
  • 我們使用深度學習模型搭配 ScoreCAM 技術,將 HLA-A、HLA-B 與 HLA-C 的重要胺基酸分別篩選出來,其中有一些是過去利用多序列比對的多型性 (polymorphism) 分析或結構分析 (34-residue) 所沒有發現的重要胺基酸 (下圖中的紅色圓圈);
A scatterplot with linear correlation shows the relationship between polymorphism and importance of each polymorphic MHC-I residue. [1]

欲使用 MHCfovea,請連結:https://mhcfovea.ailabs.tw/

欲詳讀 MHCfovea 的研究方法,請參考:https://www.nature.com/articles/s42003-021-02716-8

MHCfovea 的程式碼亦可從網路下載:https://github.com/kohanlee1995/MHCfovea

Reference:

  1. Ko-Han Lee, Yu-Chuan Chang, Ting-Fu Chen, Hsueh-Fen Juan, Huai-Kuang Tsai, Chien-Yu Chen*, Connecting MHC-I-binding motifs with HLA alleles via deep learning, Communications Biology, 4:1194, 2021.

--

--

Chien-Yu Chen 陳倩瑜

Professor, Biomechatronics Engineering, National Taiwan University