[같이실습] Single Cell RNA Sequencing #1 — Technologies (1)
Single Cell RNA Sequencing Technologies: Two Challenges
이제 프롤로그를 넘어 본격적으로 Single Cell RNA Sequencing 관련 기술들을 알아볼 시간이다. Single Cell RNA Sequencing은 조직 전체의 RNA 발현량을 보는 Bulk RNA Sequencing과 다르게 세포 하나씩을 따로 분석하는 기법이다. 보고 싶은 대상이 다르다면 사용하는 도구와 관찰 과정도 달라져야 한다. 이번 시간에는 Single Cell RNA Sequencing 과정에서 추가로 극복해야 할 두 가지 과제와, 이에 이용되는 기술들을 알아볼 것이다. Molecular Cell 지의 <The Technology and Biology of Single-Cell RNA Sequencing> (Kolodziejczyk et al., 2015) 을 주로 참조했다. (1)
[같이실습]은 재미있는 생물정보학 분석 기법 등의 주제를 가볍게 씹어보는 것을 목표로 한다. 단순히 “뭐가 잘 먹히더라”보단 그 분석기법이 필요한 이유, 원리를 가볍게 즐기고 함께 연습해볼 수 있는 시간이 됐으면 좋겠다.
Review: Bulk RNA Sequencing
Single Cell RNA Sequencing을 알기 위해서는 먼저 Bulk RNA Sequencing을 알아야 한다. 기본적인 RNA Sequencing 과정은 아래와 같다.
1) 샘플을 준비한다. 연구에 따라 다르겠지만, 기본적으로 계획된 Case-Control 실험의 경우 실험군 조직과 대조군 조직을 준비하게 된다.
2) RNA를 분리해낸다. *정상적인 조직이라면 RNA를 비롯한 유전 물질이 세포 안에 잘 포장돼 있기 때문에 세포를 갈아버리는 (Lysis) 과정도 필요하고, RNA들만 골라내는 과정도 필요하다.
* 심한 염증 환경 (Inflammatory Environment) 아래에서는 세포가 심각한 손상을 입고 파괴돼 DNA, RNA가 조직으로 흘러나올 수도 있다.
3) RNA를 역전사 (Reverse Transcription) 해서 cDNA (Complementary DNA, 주어진 RNA에 상보적으로 생긴 DNA) 를 만들어낸다. PCR (Polymerase Chain Reaction) 등을 이용해 샘플 양을 충분히 증가시켜준다.
4) 현재 *대부분의 Sequencing은 전체 시퀀스를 한 번에 읽지 않고 여러 조각으로 쪼개어 읽는 샷건 방식을 이용한다. 세부 방식은 매우 다양하지만, 일반적으로 작은 어댑터 (Adaptor) 시퀀스를 더해준 후 라이브러리 (Library) 를 완성한다. 결과적으로는 작은 RNA 시퀀스 조각들인 리드 (reads) 를 얻게 된다.
5) 각 리드를 레퍼런스 유전체 (Reference Genome) 에 배열 (Mapping) 하거나, 참조하는 유전체 없이 직접 새로운 (De novo) 배열을 조립한다.
Challenges in Single Cell RNA Sequencing
오늘도 서론이 거의 절반이었다. 드디어 Bulk RNA Sequencing을 넘어 메인 메뉴로 넘어올 시간이다. Single Cell 수준의 전사체 발현량을 분석하기 위해서는 두 개의 산을 추가로 넘어야 한다.
첫째, 세포를 분리해야 한다 (Capturing of Single Cell). 하나씩 조직에서 분리하든, 액체에 녹여서 자동으로 분류하든 세포를 분류하는 과정이 필요하다.
둘째, 세포 내의 RNA 양을 증폭해야 한다 (Amplification of RNA of mRNA). 조직 내 RNA의 양을 보기 위해서도 증폭이 필요한데, 세포 하나하나의 RNA 양을 보려면 더욱 복잡한 기법이 요구될 것이다.
Capturing of Single Cell
Single Cell을 하나씩 떼어내는 기법들부터 살펴보도록 하자. 앞서 설명했듯 Single Cell 단위로 분류하기 위해서는 크게 두 가지 방식을 시도할 수 있다.
1) 장인정신으로 하나씩 분리하겠다.
실험량이 매우 적은 (Low-throughput) 방식이다. 피펫 등으로 직접 하나씩 집는 방식 (Micromanipulation) 과 레이저로 얇은 필름에 세포를 하나씩 붙여가며 떼어내는 방식 (Laser Capture Microdissection) 등이 있다. 초기 배아세포 (Early Embryo) 등 세포 개수가 적은 경우에 이용할 수 있는 방식이다.
2) 그런 짓은 못하겠다. 한꺼번에 분리하자.
좀 더 많은 세포를 한꺼번에 분석하기 위해서는 세포를 조직으로부터 분리한 후 완충용액에 섞어놓아야 한다. 하지만 대부분의 동물 세포들은 다당류 (Polysaccharide), 당화단백질 (Proteoglycan) 등 다양한 세포외 기질 (Extracellular Matrix, ECM) 로 둘러싸여 있다. 세포를 하나씩 떼어내려면 각종 효소(trypsin, collagenase)를 쳐서 이 구조를 와장창 해버려야 한다.
이러한 효소는 세포의 생존 능력 (Cell Viability) 에 영향을 주며, 세포의 전사체 발현 경향 (Transcriptional Profile) 또한 변할 수 있다. 분석량을 늘리는 대가로 감수해야 할 부분이다.
위 방식에 해당하는 기법으로는 FACS, Microfluicis, Microdoplets 등이 있다. FACS는 세포를 면역형광 (Immunofluorescence) 방식으로 염색한 후, 이를 이용해 세포를 구분하는 방식이다. 예를 들어, FSC와 SSC 두 가지 물질을 이용해 살아있는 세포만을 추출하는 식이다.
Microfluidics는 칩 안의 미세한 공간으로 세포를 하나씩 집어넣고, 그 안에서 역전사와 증폭이 이뤄지는 방식으로 동작한다. 마지막으로 Microdroplets은 가장 많은 실험량 (High-throughput) 을 가능케 하며, 세포를 특정 방울 (Droplet) 에 가두고 그 안에서 세포의 용해가 이뤄진다.
Reverse Transcription
세포를 하나씩 분리했다면, 이번에는 RNA를 cDNA로 바꿔줄 차례다. 다행히 기초 원리는 Bulk RNA Sequencing과 크게 다르지 않다. mRNA의 경우 폴리-A 꼬리 (Poly-A Tail)을 함유하고 있다는 점에 착안해 폴리-T 시퀀스에 프로모터를 융합한 프라이머를 이용한다. 이를 폴리-T 프라이밍 (PolyT Primming) 이라고 한다.
Bulk RNA Sequencing과 대조해 볼 수 있는 부분은 프라이머 중간에 바코드를 삽입했다는 것이다. 이 바코드는 짧은 고유서열로 이후 서열 해독 단계에서 각 RNA가 어떤 세포에서 유래했는지 구별할 수 있도록 한다. 아래 그림은 두 가지 서로 다른 방식을 보여주고 있지만, 기본적인 뼈대는 동일하다. 폴리-T 시퀀스를 이용해 첫 번째 cDNA 가닥을 만들고, 이후 DNA 기반 DNA 합성을 통해 두 번째 가닥까지 완성하게 된다.
역전사 과정은 전체 분석의 퀄리티를 좌우하는 중요한 단계이지만, 슬프게도 현존 기술로는 약 10–20% 정도의 전사체만 붙잡을 수 있는 것으로 예측된다. 이는 발현량이 적은 유전체일수록 제대로 감지하기 힘들어지는 결과를 낳게 된다.
Pre-amplification
cDNA를 다 만든 후에는 유전체를 증폭시키는 과정이 필요하다. 기본적으로 잘 알고 있는 PCR이나 IVT (In vitro Transcription) 기법을 이용하게 된다. IVT는 만들어진 cDNA를 다시 전사하는 방식으로 RNA를 증폭시키고, 다시 이 RNA를 역전사하는 방식으로 이뤄진다. PCR이 지수급수적 (Exponential) 인 증폭을 보여주는 데 반해 IVT는 유전체를 선형 (Linear) 으로 증폭 시킨다.
증폭 과정에서는 필연적으로 노이즈가 발생하게 되는데, 최근에는 이를 제어하기 위해 UMIs (Unique Molecular Identifiers) 라는 짧은 서열을 추가하기도 한다. 앞서 설명했던 바코드가 어떤 세포에서 유래했는지를 구분하기 위해 사용된다면, UMI는 증폭된 cDNA들이 어떤 시퀀스로부터 유래했는지를 구분하는 데 사용된다. 아래 그림을 보자.
최종적으로 분석해야 할 결과는 그림에서 오른쪽에 위치한 증폭된 cDNA들이다. 여기서 바코드는 해당 cDNA가 어느 세포에서 유래했는지를 의미한다. 반면, UMI는 해당 cDNA가 어떤 원본 전사체에서 유래했는지를 의미한다. 따라서 UMI를 이용하면 증폭 과정에서 생긴 노이즈를 보정, 특정 전사체의 개수를 더욱 정확하게 정량할 수 있다.
To be continue
오늘은 사실 Single Cell RNA Sequencing에 활용된 실험 기법과 분석 기법을 모두 다뤄보고 싶었다. 쓰던 중에야 절대 한 번에 다 다룰 수 없다는 것을 깨달아버렸다. 그래서 다음 시간에는 원래 하려던 연구 소개를 미루고, QC 방법의 일부와 실제 분석 기법들을 소개하도록 하겠다. 역시 인생은 계획대로 되는 법이 없다. 우선 내일 랩미팅이나 무사히 지나갔으면 좋겠다. 젠장.
(1) Kolodziejczyk, A. A., Kim, J. K., Svensson, V., Marioni, J. C., & Teichmann, S. A. (2015). The Technology and Biology of Single-Cell RNA Sequencing. Molecular Cell, 58(4), 610–620. doi: 10.1016/j.molcel.2015.04.005
(2) Griffith, M., Walker, J. R., Spies, N. C., Ainscough, B. J., & Griffith, O. L. (2015). Informatics for RNA Sequencing: A Web Resource for Analysis on the Cloud. PLOS Computational Biology, 11(8). doi: 10.1371/journal.pcbi.1004393
(3) Chaudhary, Neha & Wesemann, Duane. (2018). Analyzing Immunoglobulin Repertoires. Frontiers in Immunology. 9. 10.3389/fimmu.2018.00462.