[Project] High Blood Pressure & Diabetes Classification Model

Doyun’s Journey
Doyun’s Lab
Published in
4 min readAug 28, 2020

Subject : Development of a Classification Model for High Blood Pressure and Diabetes Patients with Health Examination Data

Language : R

Data : ‘표본코호트 2.0 DB’ 데이터

Model : Logistic Regression

Train Data : row — 473,524 / column — 89

1. Data Preprocessing

2. Data Visualization

  • 저소득층은 당뇨병이 많이 걸리는 것을 파악
  • 고소득에서는 다른 소득층에서 찾을 수 없는 습진과 역류성 식도염 발견
  • 주 4일 음주하는 사람은 많은 고혈압 발병을 기록했고, 주 7일 음주하는 사람은 적은 고혈압 발병을 기록했다.
  • 보통 한 번의 음주에서 9잔 정도를 마시는 사람이 고혈압 발병이 높고, 아주 많은 음주량(15~20잔)을 가진 사람은 고혈압 발병이 낮았다.

> 주 7일 음주하는 사람은 한 번의 음주에서 적게, 한 번의 음주에서 많은 음주량을 기록한 사람은 주별 음주일이 매우 낮은 모습때문인 것 같다

  • 주별 음주일 수에 따른 발병은 고혈압과 비슷한 모습을 보였다
  • 하지만, 한 번의 음주에서 마시는 음주량이 높을 수록 고혈압 발병이 높은 것으로 나타났다.
  • 흡연 기간이 길수록 고혈압 발병이 높았다.
  • 1일 흡연량이 일정 수준 이상 일때, 흡연량이 많을수록 고혈압 발병이 높았다.
  • 흡연 기간과 당뇨는 큰 상관관계를 찾지 못했다
  • 1일 흡연량이 일정 수준 이상 일때, 흡연량이 많을수록 당뇨병 발병이 높았다.
  • 고혈압과 당뇨병을 인지한 후, 운동량이 6, 7일으로 많은 운동을 하는 것을 알 수 있다.
  • 고혈압보다 당뇨병이 가족력이 높은 것 같다.
  • 비만도가 높을수록 고혈압과 당뇨병이 많이 발병하는 것 같다.

3. Analysis & Modeling

  • 상관 분석
  • Logistic Regression

4. Conclusion

--

--