웨카, 엑사스케일 AI 배포를 위한 NeuralMesh Axon 출시

새로운 스토리지 시스템 - 코히어,코어위브, 엔비디아와 같은 업계 AI 선도 기업들이 활용하는 독특한 융합 아키텍처 제공, 대규모 AI 훈련 및 추론 워크로드에서 획기적인 성능 향상 및 인프라 요구 사항 감소

파리 및 캘리포니아주 캠벨, 2025년 7월 9일 /PRNewswire/ -- 웨카(WEKA)가 RAISE 서밋 2025(RAISE SUMMIT 2025)에서 혁신적 융합 아키텍처 기반의 스토리지 시스템 'NeuralMesh Axon'을 선보였다. 엑사스케일 AI 애플리케이션 및 워크로드 실행의 근본적 과제를 해결하도록 설계된 NeuralMesh Axon은 GPU 서버 및 AI 팩토리와 원활하게 통합되어 배포를 간소화하고 비용을 절감한다. 또한 AI 워크로드 응답성과 성능을 크게 향상시켜 활용도가 낮은 GPU 리소스를 통합된 고성능 인프라 계층으로 전환한다.

WEKA's NeuralMesh Axon delivers an innovative fusion architecture designed to address the fundamental challenges of running exascale AI applications and workloads.

이 새로운 서비스는 최근 발표된 NeuralMesh 스토리지 시스템을 기반으로 하며, 강력한 임베디드 기능을 통해 컨테이너화된 마이크로서비스 아키텍처를 강화한다. 이를 통해 AI 선도 기업, AI 클라우드, 네오클라우드 서비스 제공업체는 초대규모로 AI 모델 개발을 가속화할 수 있으며, 특히 고급 모델 훈련 및 추론 최적화를 위한 NVIDIA AI Enterprise 소프트웨어 스택과 결합될 때 더욱 효과적이다. 또한 NeuralMesh Axon은 실시간 추론을 지원하며, 첫 토큰 생성 시간(time-to-first-token) 및 전체 토큰 처리량(token throughput)을 크게 개선하여 고객은 자사 혁신을 더욱 빠르게 시장에 선보일 수 있다.

엑사스케일 시대 , AI 인프라 장애물 가중
대규모 언어 모델(LLM) 훈련 및 추론 워크로드에서 성능은 성패를 좌우하는 결정적인 요소다. 특히 엑사스케일 수준의 환경에서는 그 중요성이 더욱 크다. 그러나 현재 많은 조직이 복제 기반의 기존 스토리지 아키텍처에 의존하고 있어, NVMe 용량 낭비, 비효율적인 자원 활용, 불안정한 성능 등의 문제로 어려움을 겪는다.

그 이유는 무엇일까? 기존 아키텍처는 방대한 양의 데이터를 실시간으로 처리하고 저장하도록 설계되지 않았기 때문이다. 이러한 아키텍처는 데이터 파이프라인 및 AI 워크플로에 지연 시간과 병목 현상을 발생시켜 엑사스케일 AI 배포를 마비시킬 수 있다. 활용도가 낮은 GPU 서버와 노후화된 데이터 아키텍처는 고가의 하드웨어를 유휴 자본으로 만들어 훈련 워크로드에 막대한 비용의 다운타임을 초래한다. 추론 워크로드 또한 메모리 병목이라는 장애물에 부딪힌다. 특히 KV(키-값) 캐시와 핫 데이터 관련 문제가 발생하면서 처리량이 감소하고 인프라 부담은 증가한다. KV 캐시의 오프로드 용량이 제한적이기 때문에, 데이터 접근에 병목이 생기고, 들어오는 프롬프트에 대한 리소스 할당을 복잡하게 한다. 이는 곧 운영 비용 및 인사이트 도출 시간(time-to-insight)에 직접적인 영향을 미친다. 많은 조직이 이러한 문제를 해결하기 위해 NVIDIA AI Enterprise 소프트웨어와 함께 NVIDIA 가속 컴퓨팅 서버로 전환하고 있지만, 현대적인 스토리지 통합 없이는 여전히 파이프라인 효율성 및 전반적인 GPU 활용도에서 상당한 한계에 부딪히게 된다.

세계 최대 규모의 고성능 가속 컴퓨팅 환경을 위한 설계
이러한 문제를 해결하기 위해 NeuralMesh Axon의 고성능, 탄력적인 스토리지 패브릭은 로컬 NVMe, 여유 CPU 코어 및 기존 네트워크 인프라를 활용해 가속 컴퓨팅 서버에 직접 통합된다. 이 통합된 소프트웨어 정의 컴퓨팅 및 스토리지 계층은 로컬 및 원격 워크로드 모두에 대해 일관된 마이크로초 단위의 짧은 지연 시간을 제공한다. 이는 NFS와 같은 기존 로컬 프로토콜을 능가한다.

또한 WEKA의 증강 메모리 그리드(Augmented Memory Grid) 기능을 활용하면, 대규모 환경에서도 KV 캐시 로드를 메모리급 속도로 처리할 수 있다. 전체 용량을 낭비하고 장애 발생 시 시스템이 쉽게 무너지는 기존 복제 중심의 접근 방식과 달리, NeuralMesh Axon는 고유한 이레이저 코딩(erasure coding) 설계를 통해 최대 4개 노드의 동시 장애를 견디고, 재구성 중에도 전체 처리량을 유지한다. 또한 기존 NVMe, CPU 코어 및 네트워킹 리소스 전반에 걸쳐 사전 정의된 리소스 할당을 가능하게 하여 개별 디스크를 엑사스케일 이상에서도 메모리처럼 작동하는 스토리지 풀로 전환하는 동시에 주소 지정 가능한 모든 데이터에 대해 일관된 저지연 접근성을 제공한다.

엑사스케일 수준에서 운영되는 클라우드 서비스 사업자와 AI 혁신 기업들은, 기하급수적으로 증가하는 모델 복잡성과 데이터셋 크기에 대응할 수 있는 인프라 솔루션을 요구하고 있다. NeuralMesh Axon은 이러한 수요에 맞춰 시간에 따라 점진적으로 확장하는 방식이 아닌, 즉각적인 초대규모 성능을 필요로 하는 AI 혁신 선도 기업들을 위해 특별히 설계된 솔루션이다. 여기에는 AI 클라우드 및 네오클라우드 기반의 AI 서비스 개발 기업, 지역 거점형 AI 팩토리, 기업 고객을 위한 AI 솔루션을 개발하는 주요 클라우드 제공업체, 가장 까다로운 AI 추론 및 훈련 솔루션을 배포하며 급속한 혁신 주기를 지원하기 위해 AI 인프라 투자를 민첩하게 확장하고 최적화해야 하는 대규모 엔터프라이즈 조직 등이 포함된다.

게임 체인저 - AI 혁신 가속화를 위한 혁신적인 성능 제공
업계 최고의 보안 우선 엔터프라이즈 AI 기업인 코히어(Cohere)를 포함한 초기 도입 기업들은 이미 혁신적인 결과를 보고 있다.

코히어는 AI 모델 훈련 및 추론 워크로드를 강화하기 위해 NeuralMesh Axon을 도입한 웨카의 첫 고객 중 하나다. 높은 혁신 비용, 데이터 전송 병목, GPU 활용 저조 문제에 직면했던 코히어는 퍼블릭 클라우드에 NeuralMesh Axon을 배치해 AI 스택을 통합하고 운영 효율을 극대화했다.

어텀 멀더(Autumn Moulder) 코히어 엔지니어링 부사장은 "AI 모델 개발자에게 속도, GPU 최적화 및 비용 효율성은 매우 중요하다. 이는 용량을 기다리거나 데이터를 마이그레이션할 필요 없이 더 적은 하드웨어로 더 많은 토큰을 생성하고 더 많은 모델을 실행한다는 의미다"라고 말했다. 그는 "웨카의 NeuralMesh Axon을 GPU 서버에 내장함으로써 활용도를 극대화하고 AI 파이프라인의 모든 단계를 가속화할 수 있었다. 그 결과는 말 그대로 게임 체인저였다. 과거 5분 걸리던 추론 배포가 15초 만에 완료됐으며, 체크포인팅 속도는 10배가 빨라졌다. 이제 우리 팀은 North와 같은 혁신적인 새로운 AI 모델을 전례 없는 속도로 반복 개발하고 시장에 출시할 수 있다"라고 덧붙였다.

코히어는 자사의 보안 AI 에이전트 플랫폼인 North의 훈련을 개선하고 개발하기 위해 CoreWeave Cloud에 웨카의 NeuralMesh Axon을 배포하고 있다. 이를 통해 실시간 추론을 지원하는 강력한 기반을 마련하고, 최종 사용자에게 뛰어난 AI 경험을 제공한다.

피터 살란키(Peter Salanki) 코어위브(CoreWeave)의 최고기술책임자(CTO)이자 공동 창립자는 "우리는 AI 발전이 단순한 연산 능력을 넘어 지능적인 인프라 설계에 의해 좌우되는 시대에 진입하고 있다"며 "코어위브는 대규모 AI를 제약하는 복잡성을 제거함으로써 AI 선도 기업들이 스케일의 한계를 돌파할 수 있도록 지원하고 있다"라고 말했다. 그는 또한 "웨카의 NeuralMesh Axon이 코어위브의 AI 클라우드 인프라에 원활하게 통합됨으로써, 우리는 처리 능력을 데이터에 직접 연결하여 I/O 대기 시간을 줄이는 마이크로초 단위의 짧은 지연 시간을 달성하고, 개별 GPU 서버에 초당 30GB 이상의 읽기, 12GB 쓰기, 100만 IOPS 처리 능력을 구현했다. 이 획기적인 접근 방식은 GPU 활용도를 높이고 코히어가 초고속 추론 성능을 확보해 고도화된 AI 솔루션을 고객에게 제공할 수 있도록 지원한다"라고 덧붙였다.

마크 해밀턴(Marc Hamilton) 엔비디아(NVIDIA) 솔루션 아키텍처 및 엔지니어링 부사장은 "AI 팩토리는 엔비디아 가속 컴퓨팅 및 엔비디아 클라우드 파트너 생태계를 기반으로 AI 인프라의 미래를 정의하고 있다"며 "GPU에 근접한 위치에 초저지연 NVMe 스토리지를 임베딩하고 추론을 최적화함으로써, 조직은 데이터 용량과 관계없이 on-GPU 메모리 확장이 가능하며 대역폭 활용을 극대화할 수 있다. 코어위브와 함께 배포되는 웨카의 NeuralMesh Axon과 같은 파트너 솔루션은 초고속 추론을 위한 중요한 기반을 제공하는 동시에 탁월한 성능과 비용 효율성을 갖춘 차세대 AI 서비스를 가능하게 한다"라고 설명했다.

AI 혁신을 위한 스토리지와 컴퓨팅 융합의 이점
NeuralMesh Axon은 엑사스케일에서 운영되는 AI 개발자와 클라우드 서비스 제공업체에 다음과 같은 즉각적이고 측정 가능한 성능 개선을 제공한다.

가속화된 토큰 처리량을 통한 메모리 확장: 웨카의 증강 메모리 그리드 기술과 긴밀하게 통합되어 GPU 메모리를 토큰 저장소로 활용하여 확장한다. 이를 통해 다수의 고객 사례에서 첫 토큰 생성 시간이 20배 향상됐으며, 더 큰 컨텍스트 윈도우 지원과 추론 중심 워크로드에서의 토큰 처리 효율이 크게 개선됐다. 또한 NeuralMesh Axon을 통해 고객은 컴퓨팅 및 스토리지 리소스를 동적으로 조정하고 Just-In-Time 훈련 및 Just-In-Time 추론을 원활하게 지원할 수 있다.
GPU 가속화 및 효율성 대폭 향상: NeuralMesh Axon을 통해 고객은 AI 모델 훈련 워크로드에서 90%를 초과(업계 평균 대비 3배 이상)하는 극적인 성능 및 GPU 활용도 개선을 달성했다. NeuralMesh Axon은 또한 온프레미스 데이터 센터에서 필요한 랙 공간, 전력, 냉각 요구 사항을 줄여 기존 서버 리소스를 활용함으로써 인프라 비용과 복잡성을 낮추는 데 기여했다.
대규모 AI 워크플로를 위한 즉각적인 확장성: 시간이 지남에 따라 점진적으로 성장하는 방식이 아닌, 즉각적이고 초대규모 스케일이 필요한 AI 혁신 기업을 위해 설계됐다. NeuralMesh Axon의 컨테이너화된 마이크로서비스 아키텍처와 클라우드 네이티브 설계는 조직이 스토리지 성능과 용량을 독립적으로 확장하면서 하이브리드 및 멀티클라우드 환경 전반에서 일관된 성능 특성을 유지할 수 있도록 지원한다.
팀이 인프라가 아닌 AI 구축에 집중할 수 있도록 지원: 하이브리드 및 클라우드 환경에서 원활하게 실행되며, 기존 쿠버네티스 및 컨테이너 환경과 통합되어 외부 스토리지 인프라의 필요성을 없애고 복잡성을 줄인다.

아제이 싱(Ajay Singh) 웨카 최고제품책임자(CPO)는 "엑사스케일 AI의 인프라 문제는 업계가 이전에 직면했던 그 어떤 것과도 다르다"며 "웨카는 많은 기업이 훈련 중 낮은 GPU 활용률, 추론 중 GPU 과부하, 모델 및 에이전트당 수백만 달러에 달하는 AI 비용 문제 등으로 어려움을 겪고 있다는 점을 충분히 잘 알고 있다"라며 "이것이 바로 우리가 GPU부터 AI 인프라의 모든 계층을 최적화하는 데 집중하는 과정에서 탄생한 NeuralMesh Axon을 설계한 이유다. 이제 AI 우선 조직은 엑사스케일 이상으로 실행될 때 경쟁력 있는 AI 혁신에 필요한 성능과 비용 효율성을 달성할 수 있다"라고 말했다.

출시 예정
NeuralMesh Axon은 현재 대규모 엔터프라이즈 AI 및 네오클라우드 고객을 위해 한정 출시됐다. 일반 출시는 2025년 가을로 예정돼 있다. 자세한 정보는 다음 링크에서 확인할 수 있다.

제품 페이지: https://www.weka.io/product/neuralmesh-axon/
솔루션 개요: https://www.weka.io/resources/solution-brief/weka-neuralmesh-axon-solution-brief
블로그 게시: https://www.weka.io/blog/ai-ml/neuralmesh-axon-reinvents-ai-infrastructure-economics-for-the-largest-workloads/

웨카 (WEKA) 소개
웨카는 지능형•적응형 메시 스토리지 시스템인 NeuralMesh™를 통해 조직이 AI 워크플로를 구축, 실행, 확장하는 방식을 근본적으로 변화시키고 있다. 기존 데이터 인프라가 AI 환경이 확장될수록 더 취약해지는 것과 달리, NeuralMesh는 확장될수록 더욱 빠르고 강력하며 효율적으로 작동한다. 이 솔루션은 AI 환경과 함께 성장하며 엔터프라이즈 AI 및 에이전틱 AI 혁신을 위한 유연한 기반을 제공한다. 포춘 50대 기업 중 30%, 세계 유수의 네오클라우드 및 AI 혁신 기업들이 신뢰하는 NeuralMesh는 GPU 활용도를 극대화하고, 첫 토큰 생성 시간을 단축하며, AI 혁신 비용을 절감한다. 더 자세한 내용은 www.weka.io 또는 링크드인 및 X에서 확인할 수 있다.

웨카와 W 로고는 WekaIO, Inc.의 등록 상표다. 본 문서에 언급된 다른 상표명은 해당 소유자의 상표일 수 있다.

WEKA: The Foundation for Enterprise AI

사진 - https://www.cinpnews.kr/data/photos/newswire/202507/art_706615_1.jpg
로고 - https://www.cinpnews.kr/data/photos/newswire/202507/art_706615_2.jpg

PR Newswire

웨카, 엑사스케일 AI 배포를 위한 NeuralMesh Axon 출시

PHOTO

많이 본 기사