Interpretable Drug Target Prediction Using Deep Neural Representation

Published in

BioAI

7 min readNov 12, 2019

이 글은 논문 Gao, Kyle Yingkai, et al. “Interpretable Drug Target Prediction Using Deep Neural Representation.” IJCAI. 2018.를 기반으로 작성하였습니다.

Introduction

Drug-Target interactions(DTIs)을 예측하는 것은 신약 개발에 있어 중요한 역할을 합니다. 여기서 Drug은 chemical compounds를 말하며 Target은 proteins을 의미합니다. 기존 DTIs를 예측하는 방법은 1) Molecular docking 2) Machine learning 등이 있습니다.

1) Molecular docking

3D 시뮬레이션을 통하여 안정적인 complex가 되는 상태(score function이 가장 높아지는 경우)를 찾아 DTIs를 예측합니다. 자세한 설명은 여기를 참고해주세요.

2) Machine learning

적절한 feature를 찾기 위해 domain 지식을 기반으로 머신러닝 기법을 적용하여 DTIs를 예측합니다.

방법 1)은 시간 및 비용 소모가 크고 방법 2)는 높은 수준의 domain 지식을 요구합니다. 이러한 문제점을 보완하기 위하여 최근에 DTIs 예측을 딥러닝으로 해결하고자 하고 있습니다.

Problem Formulation

Model Architecture

Figure 1: Overall data flow and neural network architecture.

모형 구조는 Figure 1과 같습니다. Input은 Target(protein)과 Drug으로, 앞서 문제를 정의한 형태로 들어가게 됩니다. 이 모형에서 제시하는 핵심 네트워크 구조는 크게 네 가지입니다 (Figure 1에서 주황색 하이라이트로 표시). 네 가지 방법은 다음과 같은 기능을 합니다.

1) LSTM

Protein을 아미노산 embedding representation을 한 후, sequential한 input 관계를 모형으로 표현하는 역할을 합니다. 우리가 잘 알고 있는 LSTM과 모형과 거의 유사하며 논문에서 사용한 모형은 아래와 같습니다.

2) Graph Convolutional Neural Networks

Graph Neural Networks (GNNs)은 현재 제약과 관련된 딥러닝 모형 중 가장 많이 활용되고 있습니다. Drug은 분자 구조로 표현할 수 있으며 분자 구조는 그래프 형태로 표현 할 수 있기 때문에 GNNs이 적절하다고 여겨지고 있습니다. Drug을 모형의 입력으로 사용하기 위해서 인접 행렬 (Adjacency matrix)로만 표현하면 되기 때문에 기존에 많이 이용하던 Extended-Connectivity FingerPrints (ECFPs)보다 쉽게 이용할 수 있다는 장점이 있습니다.

논문에서는 GNNs을 대표하는 모형 중 가장 널리 이용되는 Graph Convolutional Neural Networks(graph CNN)을 사용하였습니다. 약의 그래프들은 graph CNNs을 거치면 dense vector로 표현할 수 있고, 이 dense vector를 이용하여 classification 문제에 적용할 수 있습니다. 그래프의 노드(nodes)는 atom이 되며 엣지(edge)는 atom과 atom 사이를 잇는 bond라고 생각할 수 있습니다. GNNs은 제약 딥러닝에서 뗄 수 없는 관계이므로 깊게 이해를 하고 있어야 합니다. 우선 여기까지만 설명 하고 추후에 GNNs에 대해 자세히 설명하도록 하겠습니다.

3) Attentive Pooling Networks

단순히 DTIs를 예측하는 것이 아니라 결과에 대하여 해석을 제공 할 수 있는 attention mechanism을 이용하였습니다. 그 중에서도, two-way attention으로 pairwise 추론이 가능한 Attentive pooling network를 이용합니다. Attention mechanism과 비슷한 Notation을 가지며 다음과 같습니다.

Interpretation을 위해 input units마다 각각 중요도를 계산해 이를 바탕으로 attention weights를 계산해야 합니다.

마지막으로, 소프트맥스를 이용하여 weights을 normalization한 결과를 weights으로 이용하게 됩니다.

4) Siamese network

Protein, Drug의 attention으로부터 얻은 벡터로 유사도(interaction이 있을 확률)를 계산하고 threshold를 이용하여 interaction의 유무를 예측하는 과정입니다.

Loss Function

Drug과 Protein의 모든 조합에 대하여 labeling을 할 수 없습니다. 따라서 주어진 protein에 대하여 interaction을 가지는 drug과 갖지 않는 약 사이에 margin을 최대로 하는 Pairwise ranking loss function을 이용하였습니다. Pairwise ranking loss function은 다음과 같습니다.

Experiment Dataset

트레이닝 데이터와 테스트 데이터를 나누고 난 후 트레이닝 셋에 있는 drugs과 proteins이 테스트셋에 얼마나 포함되어 있느냐에 따라 성능에 차이가 날 수 있습니다, 따라서 공정한 비교를 위해 다음 네 가지 상황으로 나누어 각 모형의 성능을 비교하였습니다.

1) 트레이닝 데이터에 drug, protein이 모두 있는 경우

2) 트레이닝 데이터에 protein은 있지만 drug은 없는 경우

3) 트레이닝 데이터에 drug은 있지만 protein은 없는 경우

4) 트레이닝 데이터에 drug, protein이 모두 없는 경우

트레이닝 데이터에 관측이 된 경우 상대적으로 관측이 되지 않은 경우보다 더 높은 정확도를 보일 것입니다. 하지만 우리는 관측이 되지 않는 경우에도 높은 정확도를 얻어야 되기 때문에 이러한 상황으로 나누어 결과를 비교하게 됩니다.

Results

논문에서 제시한 모형은 E2E/GO(GO annotation을 사용하지 않은 경우), E2E입니다. 기존 방법보다 상황 1), 2)에서는 정확도 등 좋은 결과를 보이지 못 했지만 상황 3), 4)에서는 더 좋은 결과를 보였습니다.

Interpretability

Attentive pooling network를 바탕으로 얻은 attention weights은 protein의 어느 부분이 drug과의 interaction을 야기하는지 찾을 수 있습니다.(GLU 160, PHE 159). 마찬가지로 반대의 경우에도 drug의 관점에서 어느 부분이 pretein과의 interaction을 야기하는지 알 수 있습니다.(saturated red로 표기)

이러한 과정은 Molecular docking과 유사한 결과를 얻을 수 있었으며 딥러닝 모형을 이용하면 이러한 과정에서 소요되는 시간과 비용이 절감되어 신약개발에 도움을 줄 것이라 기대하고 있습니다.