[python] train/validation/test 폴더로 데이터 나누기

labeling을 모두 마친 data와 annotation을 train/validation/test 폴더로 나누어야 한다.

ShellHwan
Aug 20, 2022

split-folders

splitfolders package를 활용하여 나누자.

pip install split-folders

image와 annotation을 하나의 폴더(본 예시에는 ./data/data)로 넣는다. 이때, 상위 폴더(./data)에는 다른 관련 없는 폴더나 파일이 있어서는 안된다.

import splitfolders
splitfolders.ratio("./data", output="./output", seed=1337, ratio=(0.7,0.2,0.1), group_prefix=2)

annotation과 image가 쌍으로 split되어야 하기 때문에 group_prefix=2가 되어야 한다.

위의 코드를 실행시키면 output folder에 image와 annotation이 train:validation:test = 7:2:1의 비율로 나누어진 것을 확인 할 수 있다.

--

--