VESSL을 통해 머신러닝 연구 인프라 환경을 획기적으로 개선한 서울대학교

VESSL AI
베슬에이아이 <VESSL AI>
6 min readJan 13, 2023

Overview

VESSL Run을 이용함으로써 서울대학교 fastMRI 챌린지에 참가자들은 학습 인프라 걱정 없이 모델 개발에만 집중할 수 있었습니다.

2019년, Facebook AI Research(FAIR)와 NYU Langone Health 메디컬센터는 AI를 활용하여 MRI 스캔 속도를 높이기 위해 제1회 fastMRI Chanllenge를 개최했습니다. 이 행사를 개최하며, NYU Langone Health 메디컬센터는 MRI 연구와 넓게는 의학에 머신러닝이 더욱 빠르게 접목할 수 있도록 17,000개의 익명화된 MRI 데이터셋을 공개했습니다.

서울대학교 공과대학교가 주최하는 SNU FastMRI Challenge는 “머신러닝을 이용해 MRI 촬영 시간을 획기적으로 단축하겠다”는 기존 FAIR-NYU 대회의 목표와 함께 2020년부터 열리고 있습니다. 대회의 후원사인 AIRS Medical는 2020년 FAIR-NYU fastMRI 대회의 우승자들이 창립한 메디컬 AI 스타트업이기도 합니다. 이 대회는 목표에 걸맞게 매해 30개 이상의 분야에서 150개 이상의 팀이 모여 MRI 영상 인공지능 분석 분야에 대해 학습하고, 관련 SOTA 모델들로 실 MRI 데이터들을 학습하여 공개하는 대회로 성장해왔습니다.

하지만, 매년 행사를 준비할 때마다, 참가자들을 위한 학습 환경을 제공하는 일이 문제가 되곤 했습니다. 대회 주최측은 150개 이상의 팀에게 GPU 자원을 효율적으로 배분하고 대량의 학습 데이터를 제공해야 했는데 이와 같은 연구 및 개발 환경을 구축, 운영하는 데에 어려움이 많았습니다.

이와 같은 어려움을 해결하고 참가자 모두가 사용하기 쉬운 연구환경을 제공하기 위해 서울대학교 공과대학은 VESSL을 선택하였습니다. VESSL의 MLOps 플랫폼을 사용하면서 주최측은 학습환경에 대한 고민은 덜고 대화 운영에 더욱 많은 시간을 집중할 수 있었습니다. 또한, 대회 참가자들은 VESSL을 통해 서울대학교 컴퓨팅 클러스터에 쉽게 접근하여 GPU 자원과 대규모 데이터셋을 자유자재로 사용하고, fastMRI Challenge 본래의 목적인 MRI 모델 개발에 집중할 수 있었습니다.

The Problem

서울대학교 공과대학은 챌린지 참가자들에게 원활한 학습환경과 대용량 MRI 데이터셋 제공하는 것에 어려움을 겪고 있었습니다.

MRI 모델을 개발하기 위해서는 많은 양의 GPU 자원과 대규모 데이터셋이 필요합니다. 서울대학교 fastMRI 대회의 후원사이자 2020년 FAIR-NYU fastMRI Challenge을 우승한 AIRS Medical의 모델은 2억 개 이상의 파라미터를 사용했으며 NVIDIA GPU V100 4개로 7일에 걸쳐 학습되었습니다.

이런 특성 때문에 VESSL을 도입하기 전에는 대회 환경 운영은 매우 복잡하게 진행되었습니다. (1) 주최측에서 모든 참가자들에게 GPU 클러스터의 제한된 노드를 할당해주어야 했고, (2) 참가자들은 매번 실험을 진행할 때마다 100G가 넘는 대용량 데이터셋을 다운로드 받아야만 했습니다. (3) 그보다 심각했던 것은 제출된 모델 중 일부는 재현이 불가능하거나, 참가자의 개인 컴퓨터가 아닌 경우에서 모델을 실행하면 정확도가 급격히 떨어져 심사하기 어려운 경우도 있었습니다.

서울대학교는 VESSL 도입을 통해 다음과 같은 문제를 해결하고자 했습니다.

  1. 200개 이상의 RTX 3080 GPU를 참가자들에게 고르게 할당하고 더욱 효율적으로 운용
  2. 100GB 이상의 MRI 데이터셋을 참가자들이 쉽게 접근하여 기다리지 않고 즉시 사용
  3. 모델 학습에 사용한 모든 메타데이터와 하이퍼파라미터 등의 아티팩트를 저장하여 실험 재현성 확보

The Solution

VESSL Run은 머신러닝 연구 인프라 뿐만 아니라 개발 및 학습에 필요한 다양한 도구와 워크플로우를 제공하였습니다.

VESSL Run을 사용하면서 서울대학교는 대회 운영에 필요한 머신러닝 인프라 환경을 몇시간만에 준비할 수 있었고, 대회 운영방식에도 긍정적인 변화를 가져왔습니다. 먼저 참가자들은 특정 노드에 종속되지 않고 여러 노드를 동시에 사용할 수 있는 시간을 할당받게 되었습니다. 이와 같은 제한 조건 아래서 참가자들은 지속해서 점유하는 노트북 서버 대신 컨테이너화된 잡(training job)을 실행하는 등 더욱 효율적으로 GPU를 사용하는 방법을 자연스럽게 찾아나갔습니다. 또한, VESSL의 쿠버네티스 hostPath 볼륨 기능을 통해 100GB가 넘는 대용량 데이터를 매번 다운로드 받을 필요가 없어졌습니다. 마지막으로 대회 주최측은 VESSL의 실험 대시보드를 리더보드로 사용하여 모든 실험과 모델의 메타데이터와 아티팩트들을 기록할 수 있었고, 이는 제출된 모델들의 재현성을 확보해주었습니다.

개선된 대회 환경은 참가자들이 유휴 GPU 자원과 데이터셋 다운로드를 기다릴 필요 없이 바로 모델을 개발, 학습할 수 있도록 도와주었고, 보다 효율적인 워크플로우 속에서 모델에 집중하게 해주었습니다.

  1. VESSL이 지원하는 Multi-instance GPU (MIG) 기능을 활용해 최소한의 GPU로 주피터 노트북에서 기준모델 개발
  2. VESSL의 잡 스케쥴러와 하이퍼파라미터 최적화, 분산학습을 이용해 서울대학교 컴퓨팅 클러스터에서 모델 스케일업 및 최적화
  3. VESSL SDK를 이용해 코드 한 줄로 모델의 하이퍼파라미터, 실험 환경, 데이터셋 버전 등을 VESSL의 실험 대시보드에 기록

What’s Next

서울대학교 공과대학은 대학원 연구와 학부 인공지능 수업까지 VESSL을 확대해서 사용하고 있습니다.

FastMRI 대회에 머신러닝 인프라의 필요성을 직접 확인한 후, 서울대학교 공과대학은 대학원 연구와 학부 인공지능 수업까지 VESSL을 확대해서 사용하고 있습니다. VESSL은 학생 모두가 수업과 연구에 필요한 GPU, 데이터셋에 편리하게 접근하고 있으며 이에 따라 머신러닝 연구 경험이 없는 다양한 전공의 학생들도 머신러닝을 자신의 전공에 접목하여 빠르게 실험해볼 수 있는 환경을 제공하고 있습니다. 나아가, 최신 모델을 연구하고 있는 학생들에게 VESSL은 개발환경 설정에 필요한 시간을 줄이고 재현성을 제공함으로써 모델 성능 개선과 알고리즘 개발에 집중할 수 있도록 돕고 있습니다.

--

--