U-Net

Taekyu Lee
7 min readMar 18, 2020

--

이 글은 Review: U-Net (Biomedical Image Segmentation)를 번역한 것입니다.

이 글에서는, U-Net을 검토합니다. U-Net은 바이오 메디컬 이미지 세그먼테이션에서 유명한 FCN(Fully Convolutional Networks) 중 하나이며, 2015년 MICCAI에서 발표되었고, 이 글을 쓰는 시점에 3000회 이상의 인용이 되었습니다. (Sik-Ho Tsang @ Medium)

바이오 메디컬 이미지 어노테이션 분야에서, 우리는 각각의 이미지에 어노테이션을 할, 관련된 지식을 가지고 있는, 전문가들이 항상 필요합니다. 그리고 그들은 어노테이션을 달기 위해 많은 시간을 소비합니다. 만약 어노테이션 프로세스가 자동화되면, 사람의 노력을 줄이고 비용을 절감할 수 있습니다. 또는 사람의 실수를 줄이는 보조 역할을 할 수도 있습니다.

당신은 이렇게 물을지도 모르겠습니다. “바이오 메디컬 이미지 세그먼테이션에 대해서 만은 너무 좁은것 아닙니까?”

그러나, 우리는 그 기술을 배우고, 다른 산업에 적용할 수 있습니다. 예를 들어, 퀄리티 컨트롤 / 자동 검사 / 건설 중 자동 로봇 공학 / 제조 / 제작 과정, 또는 우리가 생각할 수 있는 다른 것들이 될 수 있습니다. 이러한 활동에는 정량적인 진단이 포함됩니다. 만약 자동으로 할 수 있으면, 훨씬 더 높은 정확도를 달성하면서도 비용을 절약할 수 있습니다.

이 논문에서는, 전자 현미경(EM) 이미지를 세그먼트/어노테이트 합니다. 또한 2015 ISBI에서 치과용 X-ray 이미지를 세그먼트/어노테이트하기 위해 네트워크를 약간 수정했습니다.

EM 이미지들

목차

A. EM 이미지 세그먼테이션

  1. U-Net 네트워크 아키텍쳐
  2. 오버랩 타일 전략
  3. 데이터 보강을 위한 탄력적 변형
  4. 인접하는 객체의 분리
  5. 결과

B. 치과 X-Ray 이미지 세그먼테이션

  1. 약간 수정된 U-Net
  2. 결과

A. EM 이미지 세그먼테이션

A.1. U-Net 네트워크 아키텍쳐

U-Net

U-net 아키텍처는 위와 같습니다. 이는 수축 경로와 확장 경로로 구성됩니다.

수축 경로

  • 2번의 3×3 Conv2×2 최대 풀링이 연속적으로 수행됩니다. 이를 통해보다 고급 특성들을 추출할 수 있지만, 또한 특성 맵의 크기도 줄어듭니다.

확장 경로

  • 세그먼테이션 맵의 크기를 복구하기 위해, 2×2 Up-conv2번의 3×3 변환이 연속적으로 수행됩니다. 그러나, 위의 프로세스는 “어디서”를 줄이지만, “무엇을”을 늘립니다. 즉, 우리는 고급 특성들을 사용할 수 있지만, 또한 우리는 위치 정보도 잃어버립니다.
  • 따라서, 각 up-conv 후에, 우리는 동일한 레벨의 특성 맵을 concatenation(회색 화살표)합니다. 이는 수축 경로에서 확장 경로로 위치 정보를 제공하는 데 도움이 됩니다.
  • 마지막으로, 출력 특성 맵에는 셀과 멤브레인의 2가지 클래스만 있기 때문에 특성 맵 크기를 64에서 2로 매핑하기 위해 1×1 conv 합니다.

A.2. 오버랩 타일 전략

오버랩 타일 전략

패딩되지 않은 컨벌루션이 사용되므로, 출력 크기가 입력 크기보다 작습니다. 네트워크 이전의 다운 사이징과 네트워크 이후의 업 샘플링 대신, 오버랩 타일 전략이 사용됩니다. 이에 의해, 이미지 전체가 위의 그림과 같이 부분적으로 예측됩니다. 이미지의 노란색 영역은 파란색 영역을 사용하여 예측됩니다. 이미지 경계에서, 이미지는 미러링에 의해 외삽(extrapolated)됩니다.

A.3. 데이터 보강을 위한 탄력적 변형

탄력적 변형

트레이닝 세트는 전문가만 어노테이트 할 수 있기 때문에, 트레이닝 세트는 작습니다. 트레이닝 세트의 크기를 증가시키기 위해, 데이터 보강은 입력 이미지 및 출력 세그먼테이션 맵을 임의로 변형함으로써 수행됩니다.

A.4. 인접하는 객체의 분리

세그먼테이션 맵(왼쪽) 및 가중치 맵(오른쪽)

인접 객체는 서로 가까이 배치되어 있기 때문에, 네트워크에 의해 쉽게 병합되어, 그들을 분리하기 위해, 가중치 맵이 네트워크의 출력에 적용됩니다.

위와 같이 가중치 맵을 계산하기 위해, d₁(x)는 위치 x에서 가장 가까운 셀 경계까지의 거리이고, d₂(x)는 두 번째로 가까운 셀 경계까지의 거리입니다. 따라서, 경계에서, 가중치는 그림과 같이 훨씬 높습니다.

따라서, 교차 엔트로피 함수는 가중치 맵에 의해 각 위치에서 불이익을 받습니다. 또한 네트워크가 인접하는 셀들 사이의 작은 분리 경계를 배우도록 강제하는 데 도움이됩니다.

A.5. 결과

A.5.1. ISBI 2012 챌린지

EM 이미지의 일부 어려운 부분
U-Net이 1위의 결과를 낸 순간의 결과
  • Warping 에러: 위상 불일치(topological disagreements)를 불이익을 주는 세그먼테이션 메트릭
  • Rand 에러: 두 클러스터 또는 세그먼트 간의 유사성 측정
  • 픽셀 에러: 표준 픽셀-단위 오류
  • 트레이닝 시간 : 10시간
  • 테스트 속도 : 이미지 당 약 1초

A.5.2. PhC-U373 및 DIC-HeLa 데이터셋

PhC-U373 및 DIC-HeLa 데이터셋

U-Net은 이 두 데이터 세트에서 가장 높은 IoU를 얻었습니다.

B. 치과 X-Ray 이미지 세그먼테이션

B.1. 약간 수정된 U-Net

7개 클래스가 있는 치과 X-Ray 이미지
치과 X-Ray 이미지를 위한 U-Net

이번에는, 4x4 Up-conv가 사용되고, 각 위치의 출력에 7개의 클래스가 있기 때문에 1x1 Conv가 64에서 7까지 특성 맵을 맵핑합니다.

이미지 경계에서 미러링 대신 패딩 없음

오버랩 타일 전략에서는, 이미지 경계에서 미러링 대신 제로 패딩이 사용됩니다. 미러링은 치아에 의미가 없기 때문입니다.

여러 레벨에서 손실 함수

딥 레이어들이 세그먼테이션 클래스를 직접 학습하도록 안내하기 위해, softmax 손실을 사용하는 저해상도 특성 맵에 추가 손실 레이어들이 있습니다.

B.2. 결과

일부 시각화 결과

또한 CUMedVision1CUMedVision2도 리뷰했습니다. 관심이 있으시면 언제든지 방문하십시오.

--

--