1. 데이터 준비 & 업로드하기

김선민
Neuralworks
Published in
7 min readDec 9, 2021

앞으로 5편에 걸쳐, 뉴럴웍스를 이용한 데이터 분석 및 모델 학습을 진행할 예정입니다.

이번 글에서는 분석 할 데이터를 준비하여 뉴럴웍스에 데이터를 업로드하고, 해당 데이터에 대한 기본 정보를 살펴보는 방법에 대해 알아보도록 하겠습니다.

분석할 데이터는 Kaggle 에서 제공하는 ‘통신사 고객 이탈 여부’ 데이터로, 해당 데이터를 분류 분석을 통해 고객의 이탈 여부를 예측하는 모델을 만들어 보도록 하겠습니다.

이번 글의 진행 순서는 아래와 같습니다.

1.1. Kaggle에서 데이터 셋 다운로드 하기

1.2.데이터 및 변수 확인하기

1.3. 다운로드 한 CSV 파일을 압축하여 .ZIP 파일 만들기

1.4. 뉴럴웍스에 데이터 업로드하기

1.5. 업로드 된 원천 데이터 확인 하기

1.6. 마무리 하기

1. 1 데이터 셋 다운로드

먼저, 아래 Kaggle 데이터 셋 링크로 이동해서 WA_Fn-UseC_-Telco-Customer-Churn.csv 파일을 다운로드 합니다.

1. 2 데이터 및 변수 확인

다운로드 받은 데이터를 확인 해보겠습니다. 데이터는 총 21개의 열과 7043개의 행으로 되어 있으며 행은 즉 고객 수로 약 7000명의 고객에 대한 데이터입니다.

각각의 변수는 다음과 같은 의미를 지니고 있으며, 주요 변수로는 gender (성별), tenure(통신사 이용 개월 수), Contract(계약 기간/형태), Monthly Charges (월 청구 금액), TotalCharges(총 청구 금액) 외에 예측 하고자 하는 Churn (고객의 이탈 여부) 변수 등이 있습니다.

  • customerID: 고객 ID
  • gender: 성별 (Male, Female)
  • SeniorCitizen: 고령자 여부 (0 = 비고령자; 1 = 고령자)
  • Partner: 파트너 존재 여부 (Yes, No)
  • Dependents: 부양가족 존재 여부 (Yes, No)
  • tenure: 통신사 이용 개월 수
  • PhoneService: 전화 서비스 가입 여부 (Yes, No)
  • MultipleLines: 멀티 회선 서비스 가입 여부 (Yes, No, No internet Service)
  • InternetService: 인터넷 서비스 제공 방식 (DSL, Fiber optic, No)
  • OnlineSecurity: 온라인 보안 서비스 가입 여부 (Yes, No, No internet Service)
  • OnlineBackup: 온라인 백업 서비스 가입 여부 (Yes, No, No internet Service)
  • DeviceProtection: 기기 보험 가입 여부 (Yes, No, No internet Service)
  • TechSupport: 기술 지원 서비스 가입 여부 (Yes, No, No internet Service)
  • StreamingTV: 스트리밍 TV 서비스 가입 여부 (Yes, No, No internet Service)
  • StreamingMovies: 스트리밍 영화 서비스 가입 여부 (Yes, No, No internet Service)
  • Contract: 계약 기간/형태 (Month-to-month, One Year, Two Year)
  • PaperlessBilling: 온라인 청구서 사용 여부 (Yes, No)
  • PaymentMethod: 결제 수단 (Electronic check, Mailed checkBank transfer (automatic), Credit card (automatic))
  • MonthlyCharges: 월 청구 금액
  • TotalCharges: 총 청구 금액
  • Churn: 이탈 여부 (Yes, No)

1. 3 CSV 파일을 압축하여 ZIP 파일 만들기

다운로드 받은 데이터를 편의성을 위해 파일 이름을 “통신사 고객 이탈 여부 데이터.csv”로 변경하고 압축 파일로 만들도록 하겠습니다.

1. 4 뉴럴웍스에 데이터 업로드 하기

먼저 데이터셋 메뉴에서는 ‘원천 데이터 탭’ 과 ‘학습 데이터 탭’이 있습니다.

  • 원천 데이터 : 사용자가 업로드 하거나 뉴럴웍스 에서 제공하는 기본 데이터
  • 학습 데이터 : 원천 데이터에 전처리를 통해 변수를 가공한 데이터

‘원천 데이터 탭’ 을 선택 한 뒤 [데이터셋 업로드 하기] 버튼을 누릅니다.

데이터 셋 종류로 ‘테이블 탭’을 선택하고, zip 파일을 업로드 합니다.

데이터 이름과 설명을 입력하고 [업로드 하기] 버튼을 누릅니다.

1. 5 데이터 확인하기

업로드가 완료되면 ‘원천 데이터 탭’ 목록에 업로드 한 데이터가 새로 생긴 것을 볼 수 있습니다.

목록의 해당 데이터를 선택해서 원천 데이터의 상세 페이지로 이동 해보도록 하겠습니다. 상세 페이지에서는 ‘데이터’ 와 ‘변수의 자료형’, ‘기본 통계 정보’, ‘레이블별 빈도’, ‘변수 간 상관계수’ 등을 확인 할 수 있습니다.

  • 우선 문자형으로 되어 있는 ‘TotalCharges 변수’의 자료형을 실수형으로 바꿔 줍니다.

추가로 ‘데이터’ 항목 아래에 있는 기본 통계치도 확인 할 수 있습니다.

  • 수치형 변수 : 평균, 최대, 최소 값 등의 기술 통계치 (예 : tenure 변수)
  • 문자형 변수 : 레이블별 빈도 (예 : gender 변수)

해당 데이터는 문자형 변수가 대다수고, ‘Partner’, ‘Dependents’ 등의 일부 변수들은 ‘Yes’, ‘No’로만 값이 구성 되어 있거나 ‘MultipleLines’, ‘InternetService’ 등의 변수들은 3개 이상의 라벨을 가짐을 알 수 있습니다. 해당 부분은 이후 전처리 과정에서 고려하면 될 것 같습니다.

여기까지가 뉴럴웍스에서 데이터를 준비 및 업로드하고 데이터를 확인하는 방법입니다. 추가로 뉴럴웍스를 더 잘 활용 할 수 있는 몇 가지 Tip을 알려드리겠습니다.

  • Tip 1.데이터에 기본 설정된 자료형이 원하는 형태에 부합하는지 체크해보면 좋습니다. 뉴럴웍스에서는 사용자가 설정한 데이터 자료형에 맞춰 자동으로 지정 및 변환을 해주어, 더 원활하게 데이터 분석을 진행 할 수 있도록 합니다.
  • Tip 2. 기본통계는 데이터에 대한 기본 정보를 이해하는데 많은 도움이 됩니다. 뉴럴웍스에서는 수치형은 기본 통계값들, 문자형은 레이블별 빈도표를 보여주어, 데이터의 특성을 보다 쉽게 이해할 수 있도록 합니다.

1. 6 마무리

이번 글에서는 Kaggle 데이터를 뉴럴웍스에 업로드하고, 해당 데이터에 대한 기본적인 이해를 진행해 보았습니다. 다음 글에서는 뉴럴웍스에 업로드 한 데이터로 “2. 데이터 시각화 & 전처리 하기”를 진행하는 방법에 대해 알아보도록 하겠습니다.

--

--