AI Summit 2023 참관기

eunbyeolko
Cloud Villains
Published in
15 min readNov 10, 2023

2018년 시작해 올해로 6회째를 맞이한 AI Summit 2023 (이하, AIS 2023)은 AI와 산업의 융합에 초점을 두고 다양한 글로벌 기업과 기관, 학계 전문가 등 대규모 전문가들이 모여 진행되는 국내 최대의 규모의 AI 지식 컨퍼런스입니다.

올해는 마이크로소프트, 월마트, 엔비디아 등 다양한 국내외 AI 기업이 참여했으며, AIS 2023의 주요 주제로는 생성형 AI의 부상을 통해 본 2023년 AI의 현재, 대형 언어모델(LLM)의 현황과 적용 사례, 산업별 AI 전략과 실제 적용 사례, AI 모델의 상업화 전략, 한국 시장에 미칠 생성 AI의 영향, AI 프로젝트 성공을 위한 데이터 전략 등이 있었습니다.

AIS 2023의 주요 연사로는 애플 시리(Siri)의 개발을 총괄했고 현재 르노(Renault) 그룹의 Chief Scientific Officer 인 Luc Julia, 오픈 AI의 GPT 및 생성 AI 혁명의 도화선이 된 구글 브레인 팀의 역사적 논문 ‘트랜스포머’ 의 저자인 Ashish Vaswani 박사 등이 참석했습니다. Ashish Vaswani 박사는 ‘Attention All You Need’로 알려진 논문의 제1저자로, 현재의 GPT 혁명과 산업에 확산되고 있는 AI 애플리케이션의 미래에 대해서 조망했습니다. 또한 기술 및 데이터 전략 분야에서는 Meta의 수석 데이터 과학자인 Jack Chua, 월마트(Walmart) 글로벌 테크의 Avinash Jade 가 연사로 나섰습니다.

이렇게 다양한 연사 및 업계 관계자들이 참여한 AIS 2023에서 소개된 세션에 대해 몇 가지를 발췌하여 본 게시글을 통해 소개 드리고자 합니다.

(작성에는 김지호 SA 님이 함께 수고해주셨습니다.)

1. 성공적인 AI 프로젝트를 위한 ‘합성 데이터’ 전략과 사례

Agenda

  • AI 학습을 위한 데이터셋 전략
  • 합성 데이터 트렌드 및 적용

Speaker

  • 최윤석 Tech PM | 한국마이크로소프트, 조욱동 상무 | LS 일렉트릭

✓ 합성데이터란?

실제 데이터의 대체재로, 실제 사건에 의해 생성된 데이터가 아닌 컴퓨터 프로그램을 통해 인위적으로 생성된 데이터입니다. 그렇기 때문에 인공적일 수 있지만, 수학적/통계적으로 실제 데이터를 반영하기 때문에 실제 사물이나 사건, 사람을 기반으로 얻은 데이터보다 AI 모델을 훈련하는 데 보다 적합할 수 있습니다.

기업은 업계와 데이터 유형에 따라 민감한 데이터에 대한 보안 문제에 직면할 수 있는데,
그 예시로 의료 분야에서 환자 데이터는 높은 수준의 보안이 필요한 개인 건강 정보(PHI)가 포함됩니다. 이때 합성 데이터는 실제 개인에 대한 정보를 참조하지 않기 때문에 개인 정보 보호 문제를 완화할 수 있습니다.

또한 데이터 수집은 까다롭고 많은 비용이 사용되는데, 이때 불완전하게 수집된 데이터(데이터 불균형 등)는 AI 모델 생성에 안 좋은 영향을 미치게 됩니다. 따라서 기업은 합성 데이터를 사용함으로써 잠재적 예외 사례를 포함하고, 데이터 수집 비용을 절감하거나 개인 정보를 보호하여 학습 데이터를 강화할 수 있는데요, 이는 비용을 낮추면서 AI 모델의 성능을 높일 수 있습니다.

✓ 합성데이터 관련 LS 일렉트릭/마이크로소프트 협업 사례 소개

LS 일렉트릭은 2015년부터 DT(디지털 전환)을 위해 노력하고 있는데, 최근 마이크로소프트와의 협업을 통해 스마트 팩토리 기술의 고도화를 추진중에 있다고 합니다. 이 과정에서 협업을 통해 얻은 성과가 소개 되었는데요,

2019년부터 제조공정 자동화를 위해 노력중에 있었다고 합니다. 이 당시의 최우선 과제 중 하나는 검사 시스템을 자동화 하는 것인데, 작업자가 수동으로 작업하던 불량 제품 검사 과정을 자동화 한다면 공정의 효율성/생산성을 높일 수 있고, 이때 모델 개발에 필요한 데이터 수집의 어려움으로 시스템을 고도화 하는데 한계가 있었다고 합니다.

LS 일렉트릭에서 AI 프로젝트를 진행하며 가장 어려웠던 부분은 데이터 수집으로, 머신러닝 모델에 필요한 양질의 데이터를 수집하는것에 어려움을 느꼈다고 하는데, 생산라인의 완성도가 높아 너무 불량품 데이터는 적은 횟수로 발생되었고, 불량품 이미지는 1년에 20장도 얻기 힘들었다고 합니다.
충분한 데이터인 불량품 이미지를 수집하기 전까지는 모델의 성능을 보장하기 어렵다고 판단하여 임의로 불량품을 생산했지만 시간/비용/성능이 충분하지 않았고, 이러한 방식(임의로 만든 데이터)은 사용하지 않는 방향으로 결정되었다고 합니다.

앞서 설명한 것 처럼, 검사 시스템 고도화(불량품 제품 검출 고도화) 과정에서는 데이터의 부족이 가장 큰 어려움이었고, 이때 LS 일렉트릭은 데이터 확보 방안(임의로 만든 데이터 사용)을 더 고려하는 대신, 데이터 수집 과정을 재검토 하였다고 합니다.

그 동안 검사 시스템에서는 총 7개의 학습 모델을 만들어 각 모델을 위한 데이터를 따로 수집해왔는데, EDA를 진행해보니 각 데이터간의 유사성이 발견되어 학습 모델을 세분화할 필요가 없다는 것을 확인하게 되었고, 데이터 수집 방식을 개선함으로써 학습에 필요한 데이터의 양을 늘릴 수 있게 되었다고 합니다.

이미지 합성 데이터 관련해서는 가상의 이미지를 생성하여 (3D로 조명, 기계를 배치하여 이미지 생성) 결함 이미지를 생성하였습니다.

✓ MC(전자접촉기) Noise 검사 시스템 아키텍쳐

불량품은 소음을 발생시킬 수 있는데, 이때 소리의 진동 가속도를 측정하여 불량품을 판별할 수 있고, 마이크로소프트와의 협업을 통해 파편화 되어있던 AI 모델 개발 과정을 통합할 수 있게 되었다고 합니다.

제품 외관 검사 시스템/소음 검사 시스템은 현재 LS 일렉트릭 청주 생산라인에 적용되어 있으며, 제품 외관 검사 시스템의 경우 고도화된 모델까지 적용된 상태이며, 마이크로소프트와 파트너십을 새롭게 체결하여, 검사 시스템에 한정되어 있던 협업의 범위를 스마트팩토리 전반으로 확대할 예정이라고 합니다.

2. sLLM을 구축하여 내부 ‘문의 요청’ 지옥에서 탈출하자!

Agenda

  • 무신사 전사 Data lake 관리 방법 및 내부 문의요청 처리 방법

Speaker

  • 유환성 팀장 | 무신사

✓ 다양한 무신사 사내 문의내용

- 데이터 추출 문의

조직별로 다른 데이터 추출 기준이 있고, 조직의 목표 설정 변경에 따른 필요 데이터 변경이 필요 했습니다.

- 대시보드 사용법 문의 같은 툴 사용법에 대한 문의

- 기타) 문의를 위한 문의 (ex. 이걸 물어봐도 되나요?) , 확인을 위한 문의 (ex. 이렇게 이해한게 맞을까요? )

✓ 문의지옥에서 탈출하기 위한 노력

대시보드 활용법 가이드, 데이터 카탈로그를 제공하였고, 데이터 추출 관련하여 기존에는 조직별로 다른 데이터 추출 기준을 가지고 있어 서로 다른 기준으로 인한 데이터 불일치 발생하였다고 하면, 데이터 거버넌스 측면에서 동일한 기준, 동일한 데이터로 전사 표준 지표 체계 확립하는 것으로 변경 하였다고 합니다.

또한 데이터 마트를 구축하였고,

카탈로그라는 metric example 쿼리를 작성하게 되었는데, 사실 모든 메트릭에 대해서 example 쿼리를 작성하는 것은 매우 힘든 일이었다고 합니다.

그렇다면, 위의 어렵고 번잡한 과정을 개선하기 위해, 데이터 추출을 자동화 할 수 있지 않을까 하고 생각하게 되었고, 요청이 있다면 Rule base 기반으로하고, LLM 사용으로 즘 뜨고 있는 LLM이 하나의 대안이지 않을까 하여 해당 프로젝트를 추진하게 되었다고 합니다.

진행 과정으로는 먼저 데이터 준비를 진행 하였는데, Jira 로 데이터 관리를 하였고, 모델이 완벽한 문장을 사용하지 않는 경우(아래 이미지 오른쪽과 같은 목록형 글) 모델의 성능이 떨어질 수 있습니다.

다음으로 프롬프트 엔지니어링은 테이블 스키마, 메트릭, 지시사항으로 지시사항은 가장 많이 변경된 부분이었다고 합니다.

모델 파이프라인을 생성하기 위해 sqlcoder, llama, langchain 사용하였고, 모델 평가 과정은 아래와 같습니다.

  1. 실행 가능 여부 확인
  2. 쿼리 결과 비교 — 2차원 리스트로 반환된 결과를 정렬해서 동일한지 비교
  3. 주관적 평가 — 실행 가능한 쿼리의 결과가 왜 잘못되었는지 확인

3. 리테일 산업에서의 AI 기술 적용과 확산

Agenda

  • Walmart와 Sam’s club에서 활용하는 다양한 인공지능 프로젝트

Speaker

  • Avinash Jade | Director Walmart Global Tech AI

Diverse Data Sources to build AI/ML Models for Retail

소매업에서 AI/ML 모델에 활용할 수 있는 방대한 데이터 소스에 대해 설명했습니다.

1) Brick & Morter

매장 거래(판매 시점), 매장/창고/일 전체 품목 재고, 가격, 프로모션, planogram(매장의 제품 또는 서비스를 전시하는 시각적 표현), 발주, 영수증, 품질 데이터(파손, 반품 등)

2) E-commerce

클릭스트림, 주문, 검색쿼리, 추천에 대한 응답, A/B 테스팅

3) Omnichannel

고객/회원정보, 상품 속성, 상품 카탈로그 이미지, 공급처 정보,

4) External

날씨, 경쟁사 가격, 지역 단위 이벤트 정보, 공휴일, 거시경제학적 요인, 팬데믹 데이터

Retail Supply Chain — 1) Forecasting retail demand

리테일 산업에서의 수요 예측 문제에는 다음과 같은 과제들이 존재합니다.

1) 수요의 내재적 노이즈와 변동 : 노이즈와 변동이 발생할 수 있습니다.

2) 가격 변동과 교차 가격 효과에 대한 반영 : 제품의 가격 변동과 다른 제품 판매와의 상호작용을 고려하여 제품 가격을 조정해야 합니다.

3) 과거 품절로 인한 수요 보정 : 품절로 수요가 없었던 기간에 대한 보정이 필요하며, 왜 보정이 필요한지 해당 이벤트에 대한 분석이 필요합니다.

4) 신제품 또는 계절 제품에 대한 예측 : 신제품과 계절 제품은 예측이 어려울 수 있으므로 정확한 분석이 필요합니다.

5) 팬데믹 기간의 예측 : 예측 기간에 펜데믹과 같이 예기치 않은 사건이 포함되고, 이 사건이 수요에 영향을 미쳤을 때 소비 패턴이 크게 변화될 수 있습니다.

6) 연간 계절 또는 이벤트의 피크 지점 파악 : 수요의 고점에 대해 정확히 분석하고 대응해야 합니다.

Retail Supply Chain — 2) Network Modeling & Replenishment

Retail 산업에서의 **네트워크 모델링(Network Modeling)**이란 소매업체가 상품을 구매, 보관, 분배하고 고객에게 공급하는 데 사용하는 공급망 및 물류 네트워크의 구조와 효율성을 분석하고 최적화하는 프로세스 입니다.

Inventory Intelligence with Robotic Scrubbers

월마트에서는 Vision 모델을 탑재한 로봇 스크러버를 활용해 클라우드 기반 재고 측정을 진행합니다. 이 로봇 스크러버는 Sam’s club에서 자율적으로 이동하며 재고 데이터를 포착합니다. 이런 딥러닝 기반 비전 모델은 제품 현지화, 가격 정확성 검증, 제품 재고 수준 파악을 용이하게 합니다. 또한 재고 스캔을 통해 클럽 내에서 품목을 쉽게 찾을 수 있는지 확인할 수 있으므로 직원들이 회원에게 집중하고 쇼핑 경험에 집중할 수 있는 시간을 확보할 수 있습니다.

Robotic Scrubber가 실제 task를 수행하는 과정에 대한 자세한 과정을 제공해주었는데요,

1) 먼저 라벨에 대한 검색과 추천이 가능한 월마트의 자체 라벨링 플랫폼을 활용해 라벨링을 진행하고 CV model을 학습합니다.

2) 매일 수백만 개의 이미지들이 포착되고 가공됩니다.

3) 이후 모델은 이미지에서 연관된 객체를 잘라내고

4) Recognition model은 텍스트와 이미지를 포착해 특정 객체를 식별합니다.

이러한 프로세스에서 실제 월마트가 직면했던 문제점들은 계속 새로운 품목들이 추가되고 상품 카탈로그가 변경되므로 상품 확장성이 떨어지고, 품목들이 고객들에 의해 정방향으로 놓여있지 않고 옆으로 돌려져있거나 할 때는 인식이 어렵다는 점입니다.

이런 점을 해결하기 위해 월마트는 Feedback loop를 강조했습니다. 고객 또는 내부 직원의 feedback을 모두 데이터로 활용해 제품 매칭 알고리즘을 개선하고 이렇게 함으로써 라벨링을 직접 수행해야하는 수고를 더는 것 또한가능하다고 말했습니다.

Merchandising and Supply Chain : ML use cases

1) Markdown Optimization

Markdown Optimization은 현재 가격에서 얼마나 할인할지, 언제 할인을 시작할지, 그리고 추천된 markdown이 기대치를 충족하지 못했을 때 제안을 재보정하는 프로세스입니다. 가격 인하가 이익에 미치는 영향을 최소화하는 것으로 목표를 설정하며, 이를 전략으로 수립해 최대한 비용 효율적으로 작동하도록 합니다.

2) Space Optimization

Space Optimization이란 매출과 수익을 극대화하는 방식으로 매장 진열대에 제품을 구성하고 할당하는 프로세스입니다. 진열대의 공간을 효과적으로 활용함으로써 소매업체는 판매를 늘리고, 제품 가시성을 향상시킬 수 있습니다.

결론적으로 AI solution을 개발하기 위해 규모에 대해 먼저 고려해보고, 무거운 모델은 필요 시에만 활용하는 것, 또한 모델을 정교화하기 위해서는 모델 모니터링, 유지, 지속적인 Feedback loop가 중요하다고 강조했습니다.

4. AI, 산업 현장에서의 성공적 적용을 위한 핵심 조건(Keynote Panel Talk)

Moderator

  • Jack Chua _ Senior Data Scientist | 전)Meta

Panel

  • Tino Hildebrand — VP | Siemens
  • Avinash Jade — Director I Walmart Global Tech AI
  • Milind — AI Product Owner | Mercedes-Benz

패널토크로 진행 된 내용에 대해 Q&A형식으로 내용을 정리 해 보았습니다.

Q. 지난 몇 년간의 AI의 위치와 효율성, 제품 성장 및 개발에 어떻게 도움이 되었고 함께한 경험이 어떠한가요?

Mercedes-Benz

AI 구현의 기회는 있으나 기업 차원에서는 아직까지 없었습니다. 차량의 모양 또는 엔진의 성능을 결정한다던지 할 수 있는데, 전기차 모델 S클래스는 초당 1만 개의 신호를 수신하는데, 보다 나은 고객서비스 제공을 위해 ChatGPT를 S클래스에 통합해서 미국에서 서비스하고 있습니다. 하지만 별로 좋은 수준은 아닙니다. 현재 수준의 기술로는 페인트 퀄리티, 브레이크 패드 녹슴, 타이어 성능, 사운드 스펙트럼 늘리기 등 제조 과정 전반에 걸쳐 사람들이 AI 툴을 효과적으로 활용할 수 있게끔 하고 있습니다.

Walmart

대화형 애플리케이션으로 나누고 있고 어떤 아이템을 저장하고 어떻게 상품화 할 것인지 등 모든 의사결정이 데이터 사이언스 기반으로 이루어지고 있습니다. 현재 상당히 많은 개발이 Vision이나 LLM쪽으로 가고 있고, 미국 내 600개 이상의 샘스클럽에서 수백만개의 이미지를 처리하며 인사이트를 얻고 있으며, 아이템 위치, 재고파악 가격태그 모든 것을 확인하고 있습니다. 추가로 가장 중점을 두는 부분은 공급망인데, 월마트같은 경우 수백만개에 달하는 제품들이 있어 많은 도전과제가 있습니다.

Siemens

지난 3–40년 동안 어떻게 AI가 대중화되고 발전되는지 생각해 왔습니다. 산업용 application이라던지 모든게 디지털화 되어있습니다. 제품의 아이디어를 생각하는 것부터 컨텐츠 최적화, 소재 절감, 기술 통합이 한 시점에서 이루어질 수 있습니다. 모든 사람들이 GPT에 대해 이야기 하는데, 제조라인의 통합 IT Cloud, 안전성, 보안, 규제 등을 생성형 AI를 통해 해결해야합니다. 결정과 예측을 위해 생각해왔던 AI가 그 이상을 실현할 수 있다고 생각합니다.

Q. AI의 리더로써, AI를 어떻게 시작해야하고 거듭나기 위해 염두해있는 바가 있을까요? 또 혁신에 대해 시도할 때 lab에서 실험하는 risky한 아이디어를 어떻게 현실화 시킬 수 있을까요?

Walmart

새로운 리더들에게 줄 수 있는 메시지는 도메인으로 돌아가 유통산업 같은 경우 쉽게 고객과 접할 수 있습니다. 상당히 많은 복잡한 프로세스가 존재하는데, 예를 들어 머천다이징 같은 경우, 어떻게 아이템을 선정하고, 아이템을 실제로 매장에 둘 것인지에 대한 의사결정은 상당히 어려운 부분입니다. 다양한 전략을 수립할 수 있는데 무엇보다 ‘도메인을 이해하는 것’이 중요합니다. 특정 task를 해결한다고 했을 때 데이터를 사용해 일을 진행할 수 있는지에 대해 판단하는 것은 데이터를 아주 심오하게 들여다볼때나 가능합니다. 또한 risky한 아이디어를 어떻게 현실화 시킬 수 있는지에 대한 답변으로 무언가를 구축할 때 일단 작은 규모로 시작합니다. Pilot project로 시작해 일부 매장에만 적용해 테스트를 진행합니다.

지금까지 AIS2023 참관 후기를 게시글로 작성 해 보았습니다. 이번 AIS 2023을 통해 AI관련한 Trend 및 신 기술에 대한 내용을 들을 수 있어 좋은 기회 였고, 앞으로 업무를 진행하면서 어떤식으로 진행 해야 할지 등에 대한 아이디어를 얻을 수 있었던 좋은 컨퍼런스 였다고 생각합니다.

--

--