[서울시 먹거리 분석-14]데이터 오류 복원

미완성의 신
4 min readJul 18, 2019

--

SK Data Hub에서 최종적으로 데이터를 수정해준 후에 데이터를 확인 해보니 1,2월은 완전히 전처리가 되지 않았음을 확인했었다. 그렇다면 이제 스스로 어느정도 데이터를 복원 해야 하는데, 이번에는 이 과정을 써보고자 한다.

지난블로그

목차, 기획 블로그

그러나

이는 절대 좋은 방법이 아니며, 데이터 복구가 불가능하다는 판단 후에 조심스럽게 진행 해야 할 일이다.

문제의 1,2월 관악구와, 동작구 데이터를 보자.

막상 동작구만 바꾸려 했었는데, 읍면동도 바꿔줘야 한다. 그래서 데이터를 파악 해보았더니 아래 그림과 같은 데이터가 눈에 띄었다. 신대방동과, 신림동의 1,2월 데이터가 주 원인으로 작용해 보인다.간단하게 이를 바꿔주자.

이를 바꾸는 방법은 다음과 같다.

  1. 먼저, 1,2월의 신대방동과, 신림동의 Index를 구한다. TRUE & FALSE 를 사용 하고 which()를 사용해 준다.
### 동 변경 
# 1,2 월의 신대방동Index
sindeabang_m12_index <- which(year_18_all_food_data_frame$town == “신대방동” &
year_18_all_food_data_frame$month %in% c(1,2))
# 1,2 월의 신림동 Index
sinlim_m12_index <- which(year_18_all_food_data_frame$town == “신림동” &
year_18_all_food_data_frame$month %in% c(1,2))

2. 이제 Index를 알았으니 gsub() 함수를 사용하여 변경 해준다.

# Index 사용 하여 동작구, 관악구, 신대방동, 신림동 변경
year_18_all_food_data_frame$county[sindeabang_m12_index] <-
gsub(“동작구”,”관악구”,year_18_all_food_data_frame$county[sindeabang_m12_index])
year_18_all_food_data_frame$town[sindeabang_m12_index] <-
gsub(“신대방동”,”신림동”,year_18_all_food_data_frame$town[sindeabang_m12_index])
year_18_all_food_data_frame$county[sinlim_m12_index] <-
gsub(“관악구”,”동작구”,year_18_all_food_data_frame$county[sinlim_m12_index])
year_18_all_food_data_frame$town[sinlim_m12_index] <-
gsub(“신림동”,”신대방동”,year_18_all_food_data_frame$town[sinlim_m12_index])

이렇게 간단하게 동작구와 관악구, 그리고 신대방동과 신림동의 데이터를 바꿔주었다. 다음블로그부터 다시 데이터 파악을 시작 해보도록 할건데, 반응형 시각화 패키지인 plotly()를 소개 하면서 사용해보도록 하려고 한다.

전체코드

--

--

미완성의 신

우리 인간은 미완성의 신들이다. 뛰어난 데이터 과학자를 꿈꾸는. 책을 좋아하는. 그런 사람입니다.