Kubecon North America 2023–1편 Cloud Native 생태계의 미래를 결정하는 커뮤니티

Published in

STCLab Team Blog

14 min readDec 8, 2023

The Cloud Native Computing Foundation의 가장 큰 행사인 Kubecon + CloudNativeCon North America 2023은 클라우드 기반의 오픈소스 솔루션 및 SaaS 솔루션등 전세계 메이저 프로젝트들이 거의다 모이는 자리입니다. AWS, Google Cloud, MS Azure, IBM 등 메이저 회사들의 매년 백억대의 지원도 있지만, 이 재단과 행사는 순전히 커뮤니티 힘으로 운영되는 특성이 있습니다. 그만큼 오픈소스를 기반으로 전세계 수많은 커뮤니티 참여자들(maintainers, contributors, ambassadors 등)을 기반으로 계속 성장하고 있는 생태계이며, 클라우드 기반 엔터프라이즈 인프라의 많은 부분들이, 이들이 만든 프로젝트로 채워지고 있습니다.

사실상 컨테이너 오케스트레이션 표준이 된 Kubernetes, 오픈소스 모니터링 표준이 된 Prometheus, 서비스매쉬를 위해 기본 탑재되는 Istio등 그 외에도 많은 프로젝트들이 sandbox 단계와 incubating 단계를 거치고 있으며, 개발 단계부터 미국의 테크 회사들이 오픈소스로 참여하기 때문에, 해당 프로젝트의 production 도입률이 상당히 빠른 편입니다. 개인적인 체감상 한국 테크 회사들은 1~2년뒤에, 엔터프라이즈는 그 이후에 해당 프로젝트들을 도입하는 편인것 같습니다.

1. Cloud Native 커뮤니티와 기업, 국가들

1.1 더 세밀화 되고 확장되고 있는 거버넌스

CNCF는 오픈 거버넌스 모델로 운영되고 있으며, Governing Board(비즈니스 및 마케팅 결정), Technical Committee(기술 방향성 결정), End User Community(유저 커뮤니티) 크게 3개로 구성되어 있으며, 특히 비즈니스 결정에는 Apple, Google, Intel, AWS, Redhat, Cisco, Datadog, Huawei, Alibaba, Fujitsu 등 미국 기반의 회사가 주를 이루고, 중국, 유럽, 일본 회사들이 각각 참여하고 있는 구조입니다. 올해는 커뮤니티의 구조가 더 커지고 있어, Technical Committee가 더 세밀화 해지고, 중간 관리 구조 및 새로운 역할들이 생겨나고 있으며, 이를 바탕으로 더 많은 프로젝트와 회사 멤버쉽들을 확보하려는 움직임을 보이고 있습니다.

1.2 다양한 국가들의 참여 확대, 그리고 인도와 일본

3,4년 전만 해도 미국 도시 기반의 행사들만 진행했었지만, 코로나 이후 전세계 다른 지역들에서도 커뮤니티 행사들이 열리고 있습니다. 유럽의 여러 도시들의 참여가 확대되고 있고, 뭄바이 및 뱅갈루루(인도), 베이징, 요코하마등까지 확대되었습니다. 미국 테크 회사들의 리더쉽을 점점 인도인들이 장악하듯이, CNCF 리딩 그룹 역시 인도인들이 많이 포진해 있었습니다.

또한 일본의 참여가 확대되고 있는 점이 눈에 띄고 있습니다. 공식 사이트의 일본 컨텐츠의 비중이 높아지고 있고, 올해 Top Committer 로 수상 받은 Akihiro Suda(Software Engineer at NTT Corp)도 그 예 중에 하나입니다.

(생각: 클라우드로 바로 넘어가는 트렌드와 일본 특유의 팬 문화 및 트위터 기반의 문화가, 이 커뮤니티의 흐름과 잘 맞지 않을까 생각합니다.)

2. 기술의 흐름

Observability, Platform Engineering, Security, Service Mesh, Wasm, Telco, AI/ML, Edge 등 다양한 영역의 Cloud Native 의 발전들이 있었습니다. Google Cloud Next, AWS Reinvent와 같은 컨퍼런스에 오는 솔루션들과 Kubecon과 같은 커뮤니티 기반 컨퍼런스에 참석하는 솔루션들의 성향이 다른 점들이 눈에 띕니다. 이 문서에서는 CNCF 발표 중에서, 개인적으로 관심있는 분야 위주로 정리되어 있습니다. (부스 솔루션에 대한 정리는 2편 문서에 정리할 예정)

2.1 Observability

observability에서 솔루션들은 4개의 카테고리로 나눠보면 이해가 쉽습니다.

첫번째는 observability의 포맷에 대한 표준화 (OpenTelemetry, https://opentelemetry.io/)
두번째는 어떻게(Prometheus exporter, Fluentbit, Telegraf 등) 그리고 어떤 방식(sdk, api, sidecar, ebpf)으로 수집할것인가?
세번째는 어떻게 저장할 것인가? (Time Series Database, Prometheus, Grafana Loki 등)
네번째는 어떻게 보여줄 것인가? (Grafana, Kibana 등)

또한 observability는 3개의 포맷으로 나뉩니다.

Metrics
Logs
Traces

2.1.1 OpenTelemetry의 성장과, 모니터링 프로토콜의 미래

OpenTelemetry는 모니터링에 대한 서로 다른 프로토콜을 표준화 하기 위한 움직입니다. Datadog, Dynatrace, 와탭, 제니퍼등등 상용 모니터링 솔루션들은 서로 다른 프로토콜을 사용하며, 그래서 각 벤더마다의 에이전트 및 저장, 대시보드 등등 종속성을 가질수 밖에 없습니다. 하지만 OpenTelemetry라는 표준 프로토콜을 기반으로 모니터링을 설계하게 되면, 벤더 중립성이되어 유연하게 솔루션을 바꿀수 있게 됩니다. traces, metrics, logs 개 포맷에 대해서 많은 부분 진척이 있었고, 대부분의 상용 모니터링 기업들은 이미 OpenTelemetry 프로토콜을 지원하고 있어, 개인적인 예상에는 미국 기준 2년안에 가장 대중적인 모니터링 방법론이 될것 같습니다.

NetFunnel, Wave Autoscale 등 STCLab의 솔루션들은 고객들이 자신들의 대시보드에 솔루션의 지표들을 손쉽게 연동할 수 있도록, OpenTelemetry에 대한 기능을 탑재하여 고객들(개발자들)의 인프라와 더 결합할 수 있도록 지원해야 합니다.

2.1.2 eBPF의 진화

eBPF는 리눅스 커널안에서 일어나는 다양한 이벤트들에 대해, 사용자 정의된 함수들이 커널 안의 샌드박스 환경에서 동작하게 하는 기술입니다. 다양한 이벤트안에는 네트워킹, 보안, 프로파일링 등이 존재하며, 특히 observability 측면에서는 Agentless 방식으로 모니터링이 가능하며, 설치로 인한 성능저하를 최소화 하며 원하는 일들을 수행할 수 있습니다. 커널쪽 프로그래밍이 필요하다보니 아직 보편화되지 않은 기술이지만, Datadog의 기술 발표중에 Datadog 내부 아키텍처중에서 수십만개의 노드들에 대한 모니터링을 eBPF로 모니터링 한다고 설명하면서, 아마 인프라의 크기가 큰 엔터프라이즈 고객들에게도 해당 기술이 주는 이점이 크기 때문에, 다양한 부분에서 eBPF(agentless) 방식으로 넘어갈 경향 생길것 같습니다.

참고자료: https://www.alibabacloud.com/blog/improve-kubernetes-network-performance-with-ebpf_599445

NetFunnel, 밸런서와 같이 네트워크 퍼포먼스가 중요한 제품들의 경우, routing 로직과 같은 부분을 eBPF로 변경하여 더 향상된 퍼포먼스로 발전해야 합니다.

2.2 Security

Kubernetes의 생태계는 더욱더 복잡해지고 있고, 마찬가지로 개발자의 workflow, CI/CD 등 모든 영역에서 더 복잡해지고 있다보니, 그 말은 즉, 복잡해진 만큼 보안에 구멍이 생길 포인트들이 더 많아 지고 있다는 말과 같습니다. 예를 들어, 컨테이너 방식은 항상 이미지를 만들어야 하고, 그 이미지들은 어딘가에 저장되고 불러져야 합니다. 저장될때의 보안의 취약성, 불러질때의 보안 취약성 등등 단계가 세밀해질 수록, 보안 취약성이 드러날 포인트들이 많아집니다. 쿠버네티스 키노트 연설에서도, 쿠버네틱스가 기능적으로 더 복잡해지기 보다는 보안적으로 더 신경써야 될 때라고 이야기합니다. 또한 솔루션 부스들 중에 보안 관련 부스들의 경우, 일반적인 네트워크, 방화벽 같은 키워드 보다는, 쿠버네틱스 특정 환경 안에서의 보안, CI/CD 에 대한 보안들을 더 이야기하고 있습니다. 오픈소스 솔루션들의 특성상 보안에 대한 업데이트가 늦을 수 밖에 없는데, 엔터프라이즈들이 클라우드 아키텍처를 더욱더 채용하고, 그 근간 기술인 오픈소스 솔루션들을 더 활용함에 따라, 오픈소스 솔루션 각각을 보안하는 솔루션들에 대한 구미가 더 커질것입니다.

2.3 Kubernetes와 LLM(ML)

키노트 첫날의 연설은 LLM에 대한 언급으로 시작하였습니다. 엔터프라이즈 고객들은 OpenAI, Google Vertex AI, AWS Bedrock 같은 상용 솔루션을 활용하거나, 내부의 민감한 정보가 많은 수록 오픈소스 LLM들을 활용하여 내부 구축을 해야 합니다. Google Cloud 컨퍼런스에서는 어떻게 LLM을 필드에서 활용할것인가에 대한 포커스 였다면, Kubecon에서는 어떻게 구축할 것인가에 포커스가 맞춰져 있었습니다. LLM 구축을 위한 기술 스택은 상당히 복잡하기 때문에, 인프라 기본 베이스로 Kubernetes와 같은 기술이 필수가 될 것입니다. 이번 Kubecon에서도 해당 부분에 대해 어떻게 구축할 것인가에 대한 이야기들이 많이 있었고, 아마 내년도 부터는 LLM 구축에 대해서 how fast, how cheap, how secure와 같은더 세분화된 주제들이 나오게 될것입니다.

솔루션 업체 입장에서는, 기술지원, 기술활용 및 Q&A에 대한 대응을 LLM으로 보완해야 할것입니다. 고객들의 숫자가 늘어날 수록, 기술지원 및 고객센터 인력들이 같이 늘어나기 보다는, LLM을 보완재로 활용하여 비즈니스 확대에 대한 대비를 해두어야 할것 같습니다. 그러기 위해서는 내부 노하우, 고객 대응 결과들을 모두 문서로 작성해두어야 하며, 해당 문서를 기반으로 LLM 을 학습 시켜야할 것 같습니다.

2.4 WASM과 Edge

WebAssembly(WASM)는 컨테이너 기술의 다음 미래입니다. CNCF 재단 역시도 WebAssembly를 기존과 분리하여 독립 세션으로 만들며, 해당 미래를 준비하고 있습니다. Kubecon에서도 WASM에 대한 세션들이 있었고, 특히 Edge AI와 활용(WASM이 경량이다보니, Edge 포인트에서 빠르고 싸게 돌릴수 있는 장점이 있음), Edge Server로 활용등 다양한 부분들이 눈에 띄었습니다. 아직은 많은 programming language들이 지원되진 않고, 생태계가 이제 막 생성되고 있지만, 분명 대세가 될 흐름중 하나이긴 합니다.

NetFunnel을 WASM 기반으로 converting 하여 queue-it의 proxy 기반 기능의 대체품으로 개발이 가능할것 같습니다. Edge 포인트를 제공하는 업체와 함께한다면, 글로벌 어디서든지 proxy 기반 queuing이 가능할것 같습니다.

2.5 Multi-cluster

키노트 및 세션들이 직접 드러내지 않았지만, 공통적인 문제점들은 “멀티 클러스터 환경에서 클러스터들을/트래픽을/모니터링을/등등 관리할 것인가” 였습니다. 특히 엔터프라이즈 고객들은 쿠버네틱스 도입이 확대되고, 규모가 커질수록 멀티 클러스터를 가질 수 밖에 없는데, 현재 kubernetes 자체에서는 멀티 클러스터를 위한 기능들이 많지는 않습니다. 또한 클러스터 보다 더 큰 관리 개념이 필요하다는 이야기들도 나오고 있어서, 새로운 관리 개념 출현에 대한 부분도 귀추가 주목됩니다.

2.6 Metal-As-A-Service (MAAS)

이 부분은 개인적으로 잘 몰랐던 시장인데, Kubernetes를 클라우드에서 활용하듯이, Kubernetes를 Bare Metal에 똑같은 방식으로 운영하는 개념입니다. 클라우드 서비스를 활용하는게 아니라, Bare Metal를 전문 관리해주는 업체를 활용하여, Kubernetes를 그 위에 올리는 개념입니다. 미국쪽에서도 cost optimization에 대한 이슈가 커지면서, 이러한 방법론들을 활용하여 전체적인 인프라 비용을 50% 이상 줄이고 있습니다. Kubernetes의 기술 활용이 Edge 뿐만 아니라 이런 식으로도 활용되고 있습니다.

2.7 Traffic Engineering과 Overprovisioning

UIUC 대학에서 연구하고 있는 traffic engineering 세션인데, 단순 로드밸런싱보다는 Network RTTs, Network costs, DIfferent requests, Multi-hop implication등을 고려하며 로드밸런싱을 해야된다는 주제였고, 해당 발표자였던 임강묵님과 만나 따로 이야기하며 UIUC에서 네트워크 및 트래픽 관련 연구가 다양하게 진행되고 있다는것을 알게 되었습니다.

해당 부분은 임강묵님과 더 이야기를 나누기로 하여, NetFunnel, 밸런서, Wave Autoscale등에 활용할 수 있는 부분을 더 연구를 진행할 예정입니다.

또한 ebay에서 overprovisioning에 대한 부분을 해결하는 세션이 있었는데, 강화학습(reinforcement learning)을 활용하여, right-sizing을 여러번의 반복을 통해 계속 찾아가는 방법론을 제시하였습니다.

3. 1편 마무리

Google Cloud, AWS Reinvent 행사들과는 다르게, Kubernetes와 그 위의 최신 솔루션들의 방향성을 알 수 있는 컨퍼런스였습니다. 또한 상용 솔루션 뿐만 아니라 각 기업 및 대학들의 최신 연구들, 오픈소스 솔루션들의 고민들과 거기에 참여한 고객들(커뮤니티 참여자들, 개발자들)이 어디에 주로 관심있는지도 알 수 있는 유익한 자리였습니다. 이미 Google, AWS, Apple등 미국의 큰 테크 기업들은 대부분 참여하고 있는 행사이고, 그 영향력과 규모가 앞으로 더 커져가는것이 예상됩니다. 한국 기업들은 거의 참여하지 않는 행사이지만, 클라우드 기반의 ISV 입장에서는 클라우드 분위기와 방향성을 볼 수 있는 너무 좋은 기회였습니다.

2편에서는 쇼케이스에 참여한 업체들에 대한 리뷰들을 정리하도록 하겠습니다.