챗GPT와 데이터 분석 업무의 자동화

Sidney @HEARTCOUNT
HEARTCOUNT
Published in
9 min readApr 9, 2023

--

김수영 시인의 “시의 뉴 프런티어란 시가 필요 없는 곳이다.”라는 문장을 변주하여 “데이터 분석의 뉴 프런티어란 데이터 분석이 필요 없는 곳이다.”라고 적어 봅니다.

챗GPT는 문장으로 축적된 인류의 사고와 지식, 언어적 표현의 패턴과 구조를 거대한 지도로 구축하여 “끝내주는 언어적 능력”을 보여주고 있고, 인간 언어의 본질에 대해, AI 기술의 뉴 프런티어가 가지고 올 우리 삶의 변화에 대해 성찰하게 합니다.

구체적인 업무 영역에서 ChatGPT가 가져올 변화에 대해 이야기하기 위해서는 고작 장편 영화의 티저 예고편 정도를 보고 전체 줄거리에 대해 떠들어대는 경솔함이 요구될 것입니다.

이 글이 미래를 선명하고 정확하게 헤아리지 못 한 신중하지 못 한 글로 판명될 수 있다는 전제 하에 데이터 분석, 특히 데이터를 활용한 의사 결정 업무에서 챗GPT의 가능성과 한계에 대해 이야기해 보려고 합니다.

GenAI와 데이터 분석에 대한 최신글(2024년 2월)은 아래 링크에서 확인할 수 있습니다.
https://community.heartcount.io/ko/2024-data-and-analytics/

데이터 분석 업무의 자동화

챗GPT가 세상에 알려지기 이전에도 데이터 분석 업무의 다양한 Task들을 자동화하려는 시도와 성과가 존재해 왔습니다.

아래 표와 같이 “질문-데이터 접근-분석-보고”의 데이터 분석 과정에서

  1. 질문: 경영 지표의 급변동을 자동으로 감지하여 알려주거나,
  2. 분석: 지표를 최적화할 수 있는 패턴을 자동으로 발견해 주거나,
  3. 보고: 시각화 차트를 텍스트로 요약

하는 영역에서 데이터 분석 도구를 만드는 소프트웨어 회사들을 중심으로 자동화의 시도들이 진행되어 왔습니다.

참고로, 제가 일하는 회사가 만든 HEARTCOUNT 도 위 세가지 영역에서 자동화를 도와주는 데이터 자동 분석 도구입니다.

아래는 데이터 분석 도구들의 자동화 기능이나 기술들이 챗GPT의 등장으로 무용지물이 될 운명인지, 아니면 사람과 데이터 도구, 챗GPT가 데이터를 활용하는 일에서 서로 협력하고 힘이 되어주는(Augmenting) 관계가 될 지에 대해 살펴본 내용입니다.

질문: 챗GPT, 응 너 없어도 괜찮아.

  • 의사결정을 위한 데이터 분석 맥락에서 “질문하는 일" 자체가 큰 문제(어려움)는 아닙니다. 데이터가 답해주길 원하는 질문들은 대부분의 경우 회사의 경영 지표(Business Metrics; KPI)의 움직임과 관련된 자명한 것(왜 올랐나요? 왜 떨어졌나요?)이기 때문입니다.
  • 물론, 구체적인 분석 목적 없이 데이터를 요모조모 살펴보고자 할 때, chatGPT가 분석의 대표적 방법들과 보편적 분석 주제들에 대한 가이드를 제시해 줄 수 있겠습니다. 하지만, 데이터 분석을 공부하는 것이 목적이 아니라 데이터를 통한 문제 해결이 목적인 경우라면 질문의 영역에서 챗GPT가 기여할 여지는 크지 않다고 생각합니다.
  • 아래 그림은 데이터셋의 칼럼(변수명)을 제시한 다음 데이터에 어떤 질문을 하면 좋겠냐는 질문에 대한 챗GPT의 답변입니다.
[흠, 흠….]

데이터 접근/확보: 챗GPT, SQL 대신 작성해 주겠니?

  • DB에서 데이터를 추출하는 언어인 SQL을 작성하는 일에 있어서 챗GPT는 이미 만족할 만한 수준의 성능을 보여주고 있다고 알려져 있고 아래 그림처럼 발빠른 회사들은 이미 제품에 활용하고 있습니다. (자연어를 SQL로 변환하는 Prompt 예제)
[hyperquery 에서 그림 인용]
  • 하지만, 매우 복잡한 schema(수백개의 테이블들이 얽기설기 연결된 DB)를 이해하고 SQL을 자동으로 작성해주는 일을 ChatGPT에 기대하기는 어려워 보입니다. 참고로 아래 표는 Open AI의 최신 논문 “An early look at the labor market impact potential of large language models”에서 데이터베이스 관리자의 업무 중 몇%가 ChatGPT에 의해 증강(augmenting)되거나 대체될(displacement) 위험에 노출되었는지를 예측한 결과입니다. 𝛽 수치(ChatGPT뿐만 아니라 이를 이용한 응용 프로그램까지 포함한 경우)를 보면 50% 정도가 영향받을 수 있다고 나와 있네요.

분석: 챗GPT, 응 아니야.

  • GPT-4로 확인한 결과(2023.4.9일 기준), 레코드 개수가 수십개 이하로 아주 적은 데이터셋에 대해서도 평균, 총합, 상관관계, 드릴다운(상품별 총 매출) 등 데이터 분석 시 수행하는 기본적인 집계나 통계적 분석 작업을 정확히 수행하지 못 했습니다. 아래 그림처럼 실제 상관계수가 0.42인데, 0.12라고 맹랑하게 답변해 줍니다.
  • 이런 계산 상의 오류는 아래 ChatGPT의 답변처럼, LLM 모델의 태생적인 한계로서 챗GPT 스스로 인정하는 바이기도 합니다. 또한, 앞으로 plugin 등의 형태로 계산기를 챗GPT 손에 쥐여주면 쉽게 해결될 수 있는 문제이기도 합니다.
  • 다만, 챗GPT 플랫폼에서 진지한 데이터 분석을 수행하게 되기 보다는, 데이터 분석 전문 도구(예, Excel, R 등) 내에서 API를 통해 챗GPT의 도움을 받는 형태로 데이터 분석 업무가 변화하게 될 것 같습니다.

분석, 챗GPT가 데이터 도구와 결합된다면?

  • 아직 그 정확한 실체가 공개되지는 않았지만 MS 365 Co-pilot의 홍보 자료에 따르면, Excel에서 Co-pilot을 사용하면 데이터에 담긴 트렌드를 확인하고, 멋진 데이터 시각화를 순식간에 할 수 있다고 주장하고 있습니다. (링크 참고)

“with Copilot in Excel, you can analyze trends and create professional-looking data visualizations in seconds.”

  • 아래 그림처럼 “이번 분기의 비지니스 결과를 분석 한 후 세가지 트렌드를 요약해줘.”라고 요청하면, 아래 그림의 오른편처럼 자연어로 분석 결과를 보여준다고 합니다.
  • 아마도, 작동 방식은 1. “비지니스 결과”를 “매출" 칼럼과 mapping한 후, 2. 엑셀에 있는 범주형 변수(고객, 제품)별 피봇 테이블을 만든 다음에, 3. 데이터 테이블과 텍스트 요약 데이터를 학습한 차트/테이블 해석 모델을 사용하여 텍스트로 요약한 결과를 보여주는 방식으로 작동하리라고 추정합니다.
  • 하지만, 기계가 데이터가 수집된 맥락에 대한 지식 없이, 기계적으로 추론한 패턴 중 몇 개를 임의로 선택해서 보여주는 일이 데이터로 지표 개선 문제를 해결하는데 얼마나 유용할지 회의적입니다.
  • 오히려, HEARTCOUNT의 “Metrics Change Explainer” 기능처럼, 지표 변화의 주요 요인들을 변화에 미친 절대적 기여도나 통상적인 기여도 대비 변화한 정도(Surprise Factor) 를 기준으로 알고리즘이 모든 변수에 대해 미리 계산하여 이용자에게 펼쳐 보여주는 방식(뭘 좋아할지 몰라 다 준비했어…)이 데이터 도구를 사용하는 사람을 편하고 이롭게 하는 일이라고 생각합니다.
[하트카운트의 지표 변화 요인 대시보드]
  • 차트에 담긴 주요 메시지를 텍스트로 뽑아내는 기능(Chart-to-Text 또는 Chart-to-Narrative) 역시, 챗GPT보다는 별도의 알고리즘과 로직을 통해 해결되어야 할 문제라고 생각합니다. 아래 moving gif처럼 차트에 담긴 주목할 만한 정확한 정보(Factual Information)를 자연어 형식으로 보여주는 것이 Chart-to-Text 기능의 대표적 예입니다.
[HEARTCOUNT의 Explainer 기능]

인사이트 보고/공유

  • 데이터 보고란 질문과 관련된 유용한 정보를 데이터에서 빠르게 발견(분석 작업의 결과물)하여 자신의 견해와 함께 보고서에 담는 일입니다. 그 과정을 보다 도식적으로 구분하자면 “다양한 가설에 대한 정량적 사실 확인”, “발견된 사실에 대한 해석을 통한 지식 생산” 과정으로 나눌 수 있습니다.
  • 단언할 수는 없지만, “발견된 사실에 대한 해석을 통한 지식 생산”의 경우는 가까운 미래에도 여전히 사람이 해야할 몫일 것이라고 제법 단오하게 말할 수 있습니다.
  • 결국, 챗GPT가 데이터 보고서 작성과 관련하여 실질적 도움을 줄 수 있는 영역은 아마도 사람또는 전문 데이터 도구가 발견한 정량적 사실들로 보다 세련된 문장을 작성해 주는 것이 될 것입니다. 예를 들어 아래와 같은 매출 감소 요인에 대한 인사이트가 텍스트로 주어졌을 때 아래 그림과 같은 방식으로 말이죠.
  • “2023년 4월”의 “Sales 총합”은 전년 동월(2022.4) 6,000만원과 비교하여 1,000만원(12%) 증가했습니다. 감소 원인을 “Sub-Category” 수준에서 살펴보면, “의자”의 변동 폭이 1,500만원에서 750만원(50% 감소)으로 가장 컸고, 그 다음으로는 “Tables”이…

서로의 말꼬리를 붙잡으며 이야기가 겉돈다고 느낀다면, 대화를 멈추고 대화 내용 대신 상대의 내면을 들여다 봐야 합니다. 단어들 간의 확률적 관계로 다음 단어를 예측하도록 설계된 챗GPT의 내면을 이해한다면, 수학적 연산이 필요한 질문에 부정확한 답변을 내놓는 챗GPT를 채근하며 말싸움을 했던 제가 부끄러워 집니다.

데이터 분석 주제는 많은 경우 우리 회사가 당면한 가장 중요하고 복잡한 문제에 대한 것입니다. 이런 질문에 대해 의사결정권자들이 공감하고 신뢰할 수 있는 답변을 기계가 가까운 미래에 대신해 줄 수는 없을 것입니다. 사람, 데이터 도구, 챗GPT(LLM)가 데이터에서 가치를 발견하는 일에 있어서 서로 협력하고 힘이 되어주는(Augmenting) 관계가 될 수 있는 방법에 대해 고민과 실험을 계속하고 있고, 올 가을에 그 결과를 세상에 소개할 수 있을 거 같습니다.

아래 링크를 클릭하시면 관련한 웨비나를 보실 수 있습니다.

https://community.heartcount.io/ko/dh-webinar-data-fromatoh/

--

--