텐서 오페라와 에이셔, 전략적 파트너십 체결

분산형 클라우드에서 대규모 LLM 훈련을 진전시키기 위해 협력

에이셔 KR
에이셔 한국 공식 블로그
6 min read4 days ago

--

해당 글의 원문은 2024년 6월 20일에 게시되었습니다.

캘리포니아주 팔로알토 “대규모 생성 AI 플랫폼”을 제공하는 회사인 텐서 오페라가 분산형 클라우드 인프라 제공업체인 에이셔와 협력하여, 최신 기반 모델인 TensorOpera Fox-1의 성능을 가속화하고, 분산 물리적 인프라 네트워크에서 대규모 LLM(대형 언어 모델) 훈련 사례를 처음으로 선보였습니다.

“텐서 오페라는 LLM과 생성 AI 애플리케이션을 위한 최고의 AI 플랫폼이며, 우리는 이들에게 기업용 GPU 인프라를 제공합니다”

지난주에 소개된 TensorOpera Fox-1은 16억 개의 파라미터를 가진 최첨단 오픈 소스 소형 언어 모델(SLM)로, 애플, 구글, 알리바바와 같은 기술 대기업의 모델들을 능가하는 성능을 자랑합니다. 이 디코더 전용 트랜스포머는 독창적인 3단계 커리큘럼을 사용해 3조 개의 토큰으로 처음부터 훈련되었습니다. 이 모델은 구글의 젬마(Gemma) 2B와 같은 유사 모델보다 깊이가 78% 더 깊으며, GSM8k와 MMLU와 같은 표준 LLM 벤치마크에서 훨씬 적은 파라미터로 경쟁사를 능가합니다.

에이셔와의 협력을 통해 TensorOpera는 Fox-1 훈련에 필요한 고급 GPU 자원을 확보하게 되었습니다. 에이셔는 NVIDIA 클라우드 파트너, 인프라 펀드 및 다양한 기업용 하드웨어 제공업체와 협력하여 글로벌 대규모 GPU 클라우드를 구축했습니다. 이 네트워크는 높은 처리량, 대규모 메모리 용량, 효율적인 병렬 처리 기능이 필수적인 환경에서 비용 효율적이고 확장 가능한 GPU 자원을 제공합니다. 에이셔의 분산 클라우드 인프라의 지원으로 텐서 오페라는 높은 네트워크 대역폭과 충분한 GPU 파워를 필요로 하는 원활한 AI 개발을 위한 필수 도구를 얻게 됩니다.

이 협력을 통해 텐서 오페라는 모델 배포 및 서비스, 파인 튜닝, 전체 훈련과 같은 다양한 작업을 위해 텐서 오페라의 AI 플랫폼에서 원활하게 사용할 수 있는 에이셔의 GPU 자원 풀을 통합하고 있습니다. 에이셔의 분산 GPU 클라우드 네트워크를 통해 AI 플랫폼의 GPU 전력 소비를 실시간으로 동적으로 조정하는 것이 문제가 되지 않습니다. 에이셔와 텐서 오페라는 함께 차세대 대형 언어 모델(LLM) 훈련을 지원하고 AI 개발자들이 강력한 모델과 애플리케이션을 만들 수 있는 자산을 제공하는 것을 목표로 하고 있습니다.

텐서 오페라의 공동 창립자 겸 CEO인 Salman Avestimehr는 “에이셔와의 파트너십에 매우 기쁩니다. 생성 AI의 역동적인 환경에서 모델 개발 및 운영 단계에서 효율적으로 확장할 수 있는 능력은 필수적입니다. 에이셔의 분산 인프라는 이러한 유연성을 제공하며, 비용 효율성과 고품질 성능을 결합하고 있습니다. Fox-1 모델 훈련 중에 이러한 혜택을 직접 경험한 후, 우리는 에이셔의 GPU 자원을 텐서 오페라의 AI 플랫폼에 통합하여 차세대 AI 기술을 개척하기 위한 필요한 자원을 개발자들에게 제공하기로 결정했습니다.”라고 말했습니다.

에이셔의 운영 모델은 전 세계적으로 분산된 최고급 GPU 네트워크를 기반으로 하며, 물리적 위치에 상관없이 AI 및 기계 학습 산업의 기업 고객을 효과적으로 지원할 수 있습니다. 에이셔의 GPU 자원은 소규모 클러스터로 분산되어 전 세계적으로 지연 없는, 고도로 확장 가능한 GPU 파워를 효과적으로 제공하기 위해 분산화되었습니다. 전통적인 중앙집중식 클라우드 서비스 제공업체처럼 몇 개의 대규모 데이터 센터에 자원을 집중시키는 대신, 에이셔는 인프라를 분산시켜 네트워크의 가장자리를 덮고, GPU 자원과 최종 사용자 간의 물리적 거리를 줄입니다.

에이셔의 CTO인 Kyle Okamoto는 “텐서 오페라는 LLM과 생성 AI 애플리케이션을 위한 최고의 AI 플랫폼이며, 우리는 이들에게 기업용 GPU 인프라를 제공하게 되어 기쁩니다.”라고 말했습니다.

에이셔의 CEO인 Daniel Wang은 “에이셔는 전 세계 사람들의 일상 생활을 개선할 수 있는 획기적인 솔루션을 개발하고 출시하기 위해 AI 및 기계 학습 부문을 지원하는 데 전념하고 있습니다. TensorOpera는 개발자들에게 포괄적인 AI 플랫폼을 제공하고, 에이셔는 가장 까다로운 LLM 훈련과 AI 추론을 처리할 수 있는 안정적인 GPU 파워를 제공할 것입니다. 우리의 방대한 분산 클라우드 인프라 덕분에 에이셔는 전 세계적으로 대규모 AI 개발 및 배포를 지원할 수 있습니다.”라고 말했습니다.

우리는 생성 AI 모델 빌더와 애플리케이션 개발자들을 텐서 오페라 AI 플랫폼으로 초대합니다. 여기서 이들은 이번 파트너십을 통해 새롭게 제공되는 고품질 H100 GPU를 사용해 원활하게 모델을 훈련, 배포 및 서비스할 수 있습니다.

텐서 오페라란?

텐서 오페라, Inc.(이전의 FedML, Inc.)는 캘리포니아주 팔로알토에 기반을 둔 혁신적인 AI 회사입니다. 텐서 오페라는 확장 가능하고 안전한 AI 플랫폼 개발에 특화되어 있으며, 기업 및 개발자를 위한 두 가지 대표적인 제품을 제공합니다. 텐서 오페라® AI 플랫폼(TensorOpera.ai에서 제공)은 모델 배포 및 서비스, 모델 훈련 및 파인 튜닝, AI 에이전트 생성 등을 위한 포괄적인 생성 AI 플랫폼입니다. 이 플랫폼은 서버리스/분산 GPU 클라우드에서 훈련 및 추론 작업을 시작하고, 분산 훈련을 위한 실험 추적, 향상된 보안 및 개인 정보 보호 기능을 지원합니다. 텐서 오페라® FedML 플랫폼(FedML.ai에서 제공)은 제로 코드 구현을 통해 연합 학습 및 분석을 선도하며, 엣지 GPU, 스마트폰, IoT 기기에 적합한 경량의 크로스 플랫폼 엣지 AI SDK를 제공합니다. 또한, 현실 세계 응용 프로그램에서 분산 기계 학습 및 배포를 간소화하기 위한 사용자 친화적인 MLOps 플랫폼도 제공합니다. 2022년 2월에 설립된 텐서 오페라는 전 세계 수많은 기업과 개발자들을 지원하며 빠르게 성장하고 있습니다.

에이셔란?

에이셔는 분산화된 환경에서 컴퓨팅 클라우드 솔루션을 제공합니다. 전 세계에 있는 누구나 집약적인 리소스에 기여하여 보상을 받을 수 있는 동시에, 엔터프라이즈급 GPU에 대한 안전하고 비용 효율적인 리소스를 제공합니다.

웹사이트 | X(트위터) | 에이셔 문서 | 에이셔 영문 블로그

디스코드 | 에이셔 코리아 공지 | 에이셔 코리아 커뮤니티

--

--