유전체 데이터 분석(3): Annovar

김병하
김병하
Sep 24 · 6 min read

안녕하세요. 휴먼스케이프에서 개발자로 일하고 있는 브루노입니다.

이 번 포스트에서는 annotation(VCF와 같은 변이 파일에 상세 정보를 첨가하는 작업) tool 중 하나인 Annovar를 간략히 소개하겠습니다.

Annovar란?

유전자 검사 후 분석 결과를 내기 까지는 아래와 같은 과정을 거칩니다.

Image for post
Image for post
Annovar 동작 개요

유전체 분석을 위해서는,

  1. 시퀀싱 후에 각 read를 정리하여 BAM 파일을 추출하고

이 때 Annovar는 각 변이에 분석 결과를 첨가하는 annotation을 하는 소프트웨어, 즉 annotation tool입니다.

Annovar input file

Annovar는 자체 input 파일 형식을 가지고 있습니다. 각 필드가 탭으로 분리되어 있는 TSV(Tab Seperated Value) 텍스트 파일입니다. 공식 문서를 보면 space 5개도 가능하다고 하는데 아마도 TSV 형태가 일반적으로 쓰이는 것 같습니다.

기본 필드는 순서대로 염색체, start position, end position, Reference Allelel(레퍼런스 유전자), Alternative Allele(변이 유전자) 입니다. 그 뒤에 나오는 필드들은 추가 정보입니다.

아래는 Annovar input file의 예시입니다.

Image for post
Image for post
Annovar input file 예시

각 라인은 하나의 변이를 나타냅니다.

가장 보편적으로 쓰이는 VCF 파일을 Annovar를 이용해서 annotate하기 위해서는 Annovar input format으로 변경을 해야 합니다. 변경은 Annovar를 실행할 때

-format vcf4

옵션을 추가하면 자동으로 수행됩니다.

Annovar 사용법

Annovar는 오픈 소스이므로 input 파일을 준비했다면 바로 사용할 수 있습니다. 아래 내용은 공식 문서의 user guide를 참고했습니다.

http://annovar.openbioinformatics.org/en/latest/user-guide/download/에서 사용등록 후에 다운로드 받습니다.

다운로드 받은 파일의 압축을 해제하고, 압축 해제한 폴더로 이동합니다.

필요한 DB 들을 다운 받습니다. 아래는 DB 다운로드 명령어 예시입니다.

$ annotate_variation.pl -buildver hg19 -downdb -webfrom annovar refGene humandb/
$ annotate_variation.pl -buildver hg19 -downdb cytoBand humandb/
$ annotate_variation.pl -buildver hg19 -downdb -webfrom annovar exac03 humandb/
$ annotate_variation.pl -buildver hg19 -downdb -webfrom annovar avsnp147 humandb/
$ annotate_variation.pl -buildver hg19 -downdb -webfrom annovar dbnsfp30a humandb/

다운로드 받은 후, 아래 명령어를 이용해서 각 DB의 정보를 이용해 input의 gene들에 annotation을 진행합니다.

$ table_annovar.pl example/ex1.avinput humandb/ -buildver hg19 -out myanno -remove -protocol refGene,cytoBand,exac03,avsnp147,dbnsfp30a -operation gx,r,f,f,f -nastring . -csvout -polish -xref example/gene_xref.txt

Annovar 결과 파일

Annovar 결과 파일은 input 파일에 annotation 필드들이 추가된 형태를 띄게 됩니다. 어떤 DB를 추가하느냐에 따라서 필드는 추가될 수도, 줄어들 수도 있습니다. 필드명 또한 변경 가능합니다.

그렇기 때문에 Annovar로 annotation 된 결과 파일을 이용하기 위해서는 필드명과 필드 자료형을 고정하고 진행하는 것이 좋습니다.

정리

유전체 annotation tool 중 하나인 Annovar에 대해서 간략하게 소개했습니다. Annovar 외에도 SnpEffvep와 같은 많은 annotation tool이 있습니다. 대부분 유사한 방법으로 수행하므로 Annovar의 동작법을 잘 익히신다면 다른 annotation tool들을 익히는 데 많은 도움이 될 것입니다.

읽어 주셔서 감사합니다.

Annovar에 대한 더욱 자세한 내용은 공식 문서를 참고해주세요.

Get to know us better!
Join our official channels below.

Telegram(EN) : t.me/Humanscape
KakaoTalk(KR) : open.kakao.com/o/gqbUQEM
Website : humanscape.io
Medium : medium.com/humanscape-ico
Facebook : www.facebook.com/humanscape
Twitter : twitter.com/Humanscape_io
Reddit : https://www.reddit.com/r/Humanscape_official
Bitcointalk announcement : https://bit.ly/2rVsP4T
Email : support@humanscape.io

휴먼스케이프 기술 블로그

Together, we build healthier lives.

Medium is an open platform where 170 million readers come to find insightful and dynamic thinking. Here, expert and undiscovered voices alike dive into the heart of any topic and bring new ideas to the surface. Learn more

Follow the writers, publications, and topics that matter to you, and you’ll see them on your homepage and in your inbox. Explore

If you have a story to tell, knowledge to share, or a perspective to offer — welcome home. It’s easy and free to post your thinking on any topic. Write on Medium

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store