[ R ] Credit Risk Modeling in R ( 1. Crosstable, Histogram, Outlier )

본 글은 https://www.datacamp.com/home 를 바탕으로 작성함

datacamp의 수업을 바탕으로 신용 데이터 탐색, 로지스틱 회귀 분석, 의사결정트리, 모델 성능 평가 등을 주제로 포스팅을 진행할 예정입니다.

우선 범주형 변수를 Crosstable을 통해 출력하는 방법, 히스토그램 작성 방법, 아웃라이어 제거 방법 등을 알아보도록 하겠습니다. 데이터 분석의 초기 단계인 데이터 탐색이라고 볼 수 있습니다.

1. Exploring the credit data

  • str()함수를 통해 데이터셋의 전체적인 구조를 파악
  • 각 변수별 자료형, factor변수의 종류 갯수(level) 등
  • 범주형 변수는 CrossTable() 함수를 사용하여 탐색
  • 결론 : A에서 G로 갈수록 파산 비율이 높아짐

2. Histograms

breaks의 사이즈에 따른 히스토그램
  • (히스토그램)$breaks : 히스토그램의 단위를 나타내주는 함수
  • breaks의 사이즈에 따라 히스토그램의 모양이 달라짐

3. Outliers

아웃라이어 판단 기준은 아래와 같은 방법이 쓰입니다. 
- expert judgement
- rule of thumb: Q1–1.5 * IQR /Q3 + 1.5 * IQR
- mostly: combination of both

  • which 함수를 이용하여 122보다 큰 값을 갖는 인덱스 값을 찾고
  • loan_data에서 아웃라이어행을 삭제하여 new_data 변수에 새롭게 저장
  • 아웃라이어 제거 전/후의 bivariate scatterplot을 비교하면 아래와 같음
아웃라이어 제거 전(좌) / 후(우)