토종 AI 반도체 스타트업 퓨리오사 AI는 엔비디아를 넘어설까?
뉴스 기사: “엔비디아가 가솔린차라면 퓨리오사는 전기차”
며칠전 테슬라는 인하우스 AI 가속기인 Dojo의 개발을 중단하고, 엔지니어링 팀을 공식적으로 해체했다. 현재 완공되거나 계획된 테슬라 데이터센터에는 AI 모델 학습을 위해 주로 엔비디아의 데이터센터용 제품군이 사용되고 있으나, Dojo 1세대 칩도 일정부분 활용되고 있는것으로 알려졌다.
2016년 테슬라에 이직해서 Dojo 하드웨어/소프트웨어 설계부터 양산을 총괄한 Ganesh Venkataramanan는 이전에는 AMD에서 설계 엔지니어링을 담당하며 200명 이상의 엔지니어를 관리하던 시니어 디렉터(Sr. Director)였고, 2023년 10월에 창업을 위해 테슬라를 떠났다. 일론 머스크에 직접 보고하던 커스텀 반도체 및 저전압 전기부문 총괄 부사장 Peter Bannon 또한 이번달 회사를 떠나면서 테슬라는 차량에 우선적으로 탑재되는 AI6 칩 개발에 집중할 것으로 예측된다.
퓨리오사AI 백준호 대표는 AMD GPU 소프트웨어 엔지니어, 삼성전자 메모리 하드웨어 엔지니어 직책을 거쳐 2017년 퓨리오사AI를 설립했다. 백대표는 현재 압도적인 성능을 자랑하는 엔비디아를 '가솔린차'에, 자사가 개발중인 추론 전용 가속기를 '전기차'에 비유하며, 엔비디아의 최상위 추론용 제품인 L40S와 비슷한 성능을 달성하며 2배 이상 전력효율이 높다고 주장한다.
L40S는 메모리 용량이 48GB로 비교적 낮고 엔비디아의 플래그십 데이터센터 제품군이 지원하는 NVLink가 빠진 제품이다. NVLink는 여러개의 칩을 묶어 하나처럼 사용할 수 있도록 하는 기술인데, 매우 거대한 언어 모델을 다루거나 사용자들의 추론 요청을 병렬적으로 처리하려면 칩 하나의 용량(H100 기준 80GB)을 넘어서는 메모리가 필요하기에 대부분의 데이터센터 환경에서 H100은 8개 칩이 1개 노드(node)로 묶여서 세팅되고 있다.
최근 모델 파라미터 크기 확대를 통한 성능 개선이 한계에 다달았다는 우려(정확히는 더 이상 학습할 데이터가 없음)가 공통적으로 제기되면서 추론 과정에 더 중점을 둔 모델들이 출시되고 있고 (예: GPT o3), 이들은 추론 과정에 컴퓨팅 자원을 더 할당하면 아웃풋 성능 개선으로 이어진다는걸 증명하고 있다. 그렇기에 백대표가 주장하는 앞으로 다가올 '추론 시대'는 논란의 여지가 크게 없다. 프론티어 모델의 파라미터는 계속해서 커지긴 하겠지만 그 속도는 둔화될 것이고, AI 모델의 성능이 개선되면서 추론 수요는 끊임없이 증가중이다.
모델을 한번 학습시키고 나면 끝인 학습 비용(고정비)에 비해 추론 비용은 사용자 요청량에 따라 증가하는 비용(변동비)이고 따라서 서비스 제공자들이 매우 민감하게 반응하는 영역이다. 주로 '토큰당 단가'로 측정되는데, 모델별로 하나의 토큰이 가지는 정보 크기가 다르기 때문에 절대적인 지표는 아니다. 그러나 AI 서비스 제공에 있어서 토큰당 추론 단가는 고려해야 할 요소중 일부다. 성능이 유지되면서도 반응속도와 토큰 생성속도가 충분히 빨라야하며, 적절한 context window를 확보해 입력된 정보를 모두 고려한 답변을 제공해야 할 것이다.
자료: 퓨리오사 AI
LLM 추론 성능 벤치마크에서 자주 사용되는 token/s 지표는 절대적이지 않은데, 퓨리오사가 RNGD 제품 페이지에서 엔비디아의 H100과 L40S 보다 앞선다고 주장하면서 사용하는 데이터는 테스트 환경에 대한 정보가 매우 제한적이어서 실제 데이터센터에서의 서비스 환경에서의 성능을 가늠하기에 무의미하다고 판단한다. 추가적으로 회사 웹사이트에서 성능 테스트값을 어떤 환경에서 도출했는지 설명하는 자료가 있는지 찾아보았으나 찾지는 못했다.
주로 홍보하는 지표인 token/s/W는 전력 효율성을 측정하기 위함으로 보이는데, 아래에 우리가 자체적으로 계산한 표를 보면 AI 가속기가 Llama 31. 70B 모델을 추론할 때 실제로 소모하는 전력이 아닌 TDP 기준으로 측정했음이 거의 확실하다. 해당 가정을 적용할 경우 H100 SXM 대비 80% 낫고 L40S 보다는 1,038% 높은 수치가 동일하게 산출되는것을 알 수 있다. TDP는 칩이 방출할 수 있는 최대 열량을 표기한 값이기에 서버의 쿨링 솔루션 설계에 최적화된 값이지 실제 사용시 전력 소모량과 직접적인 관계는 없다. 또한 TDP 계산 방식은 규격화 되어있지 않아 제조사마다 다른 방법으로 측정하기에 전력 효율을 논하기에는 더더욱 신뢰성이 떨어진다.
자료: 어웨어
퓨리오사가 비교하지 않은 모델인 H100 NVL의 경우 TDP를 일반 모델(H100 SXM)대비 반정도로 낮추고 메모리 대역폭을 높인 '추론에 적합한' 변형 모델인데, 회사측이 애용하는 TDP당 지표에서는 4.32 FLOPS로 월등한 효율을 자랑하는것을 알 수 있다.
엔비디아가 실제로 대규모 추론 서비스에 효율적이라고 말하는 H100 NVL 모델에 대한 테스트 데이터는 없지만 만약 퓨리오사가 RNGD를 홍보하기 위해 선택한 지표들을 이 제품에 똑같이 적용했다면 어떤 결과가 나올지 궁금하여 Google DeepMind에서 운영하는 블로그의 "Theoretical Max Tokens/s" 및 "Theoretical Step Time (General)" 공식을 사용하여 이론적인 최대 쓰루풋 값인 2,690을 구하고, 퓨리오사가 제공한 H100 SXM의 데스트 데이터와 이론상 최대값의 비율(77%)을 적용하여 예상 실제 쓰루풋인 2,091 토큰/초 값과 이를 제조사 발표 TDP (W)로 나눈 5.98/아웃풋 토큰/초/와트 값을 추산했다. 이 경우 H100 NVL의 순수 쓰루풋 성능은 RNGD보다 119% 앞서며, 같은 전력 기준에서 12% 앞섰다.
엔비디아 L40S의 경우 이론상 최대 성능대비 24%에 불과한 결과를 보여주었는데 이는 테스트에 이용된 Llama 3.1 70B 모델의 용량이 약 70GB에 달하기 때문이다. L40S는 GPU당 메모리 용량이 48GB라 해당 모델을 구동하려면 여러대의 GPU를 연결해야 하는데, 구형 PCIe 4세대 규격(양방향 대역폭 64GB/s)을 통해 연결하기 때문에 한번에 여러 배치를 추론할 경우 통신 지연이 발생하는 것이다.
아래는 배치 사이즈별 쓰루풋을 계산을 나타내는 표인데, L40S의 경우 배치 사이즈 32개 부터 GPU간 통신 지연으로 인해 병목현상이 발생할 가능성이 높아보인다. RNGD의 경우 PCIe 5세대 규격(양방향 대역폭 128GB/s)을 사용하여 GPU간 통신 지연보다는 연산 속도(TFLOPS) 한계로 인해 배치 사이즈 170개 부터 병목현상이 발생할 것으로 추정된다. 해당 배치 사이즈에서 예상되는 KV Cache 용량은 53.1GB다.
자료: 어웨어
또 하나 흥미로운 점은 RNGD의 성능 데이터가 이론상 최대치에 매우 유사했다는 것이다. 무려 98%에 달했는데, 실제 대규모 서비스 상황에서 이 정도의 효율을 보여주는 AI 가속기는 존재하지 않는다. 퓨리오사 AI 엔지니어들이 좋은 결과값을 내기 위해서 엄청난 수준의 최적화를 한 것으로 보인다. 회사가 선택한 인풋 토큰(프롬프트) 2,048개와 아웃풋 토큰 128개를 출력하는 테스트 환경은 장문의 자료를 읽고 요약을 요청하는 작업을 염두에 둔 것인데, 실제 사용자 요청은 대부분 프롬프트 대비 아웃풋이 길며, 따라서 메모리 대역폭이 더 중요시된다. 반대로 인풋 토큰을 128개로 하고 아웃풋 토큰을 2,048개로 가정하여 추정하면 H100 SXM의 RNGD대비 최대 초당 쓰루풋 배율은 2.94배에서 3.74배로 벌어진다.
퓨리오사 AI가 제시하는 추론용 성능 판단 지표와 데이터를 액면가 그대로 받아들이더라도, RNGD 모델은 백준호 대표가 '가솔린차 제조사'에 비유한 엔비디아의 추론 전용 모델인 H100 NVL의 예상 전력당 성능대비 89% 정도를 낼 것으로 보인다 . 엔비디아 제품들의 경우 이미 전세계 데이터센터 곳곳에 엄청나게 많이 보급되었고 따라서 최적화 노하우가 연구자들과 개발자 사이에 널리 퍼져있기 때문에 실제 대규모 서비스 환경에서의 성능 격차는 훨씬 더 벌어질 것으로 보이지만, 나는 회사측이 취사 선택한 데이터임을 고려해도 RNGD 제품 스펙은 AI 가속기 스타트업 제품중에서는 매우 준수한 성능을 보여준다고 생각한다.
그러나 엔비디아를 가솔린차에 비유하며 퓨리오사 AI를 마치 10년전의 테슬라처럼 기존의 제조사들이 해내지 못했던 완전히 새로운 시장을 개척하는 기업처럼 포지셔닝 하는 발언들은 AI에 대한 전문성이 없는 대다수의 사람들에게는 상당한 오해를 일으킬 소지가 있다. 백준호 대표 어깨에 실린 엄청나게 무거운 짐을 고려하더라도 그렇다.



- 멤버십 전용NEW경제배당 수익률 6.88% 새로 나온 은행 우선주 소개안녕하세요, 카레라입니다. 오늘은 텍사스 댈러스 본사를 둔 지역은행이자 사실상 중대형 리저널 뱅크로 자리잡은 은행에서 막 발행한 따끈따끈한 우선주를 소개하려 합니다. 발행가는 25달러, 첫 배당은 내년 1월부터 시작되는 구조인데 처음 5년은 6.875% 고정으로 분기마다 지급하고 그 이후엔 5년물 미 국채금리에 3.125% 스프레드를 더해 리셋되는 구조입니다. 즉 인플레이션이나 금리 사이클에도 방어력이 있다는 점에서 꽤 매력적입니다.고건・2095
- 멤버십 전용NEW경제배당 수익률 121% 초고배당 커버드콜, 투자 가치가 있을까?안녕하세요 카레라입니다.TSLY, YMAX 같은 초고배당 종목들이 가끔가다 시장을 핫하게 휩쓰는 모습이 보입니다. 100% 넘는 배당을 컨셉으로 밀면서 매주 분배금을 주는 ETF가 있다는 사실을 아시나요? 변동성 높은 종목들을 잔뜩 섞어서 커버드콜을 얹은 초고위험, 초고배당 ETF입니다. 그런데 덮어놓고 투자할 만한가 하면 그건 또 고개가 갸우뚱거려진다는 거, 한 번 설명드리겠습니다.고건・201,065
- NEW경제배당 수익률 7% 전후 8개의 일반주 소개와 분석 1편안녕하세요, 카레라입니다.일반주 이야기는 꽤 오랜만에 하는 듯 한데요, 회사채와 우선주가 아닌 일반주들 중에서도 여전히 연 7% 전후 배당을 꾸준히 주는 경우가 찾아보면 꽤 있습니다. 8개의 일반주를 총 2편의 콘텐츠로 나눠서 소개해 드리겠습니다. 안정적 배당을 기반으로 방어적인 포트폴리오를 만들 때 살펴보시면 좋을 것 같습니다.1 . United Parcel Service(UPS) 소개전 세계 200여개 국에 소포 운송·계약물류 서비스 제공하는 글로벌 물류기업사업 부문은 미국 내 소포, 국제 소포, 공급망 솔루션 세 가지로 구성단가 인상과 네트워크 효율화로 경기 둔화 구간에서도 방어력 유지CEO가 직접 “배당은 회사 핵심 원칙” 이라 강조할 만큼 배당 정책 보수적저마진 계약 줄이고 헬스케어, 콜드체인 등 고마진 니치 확대장기 진입장벽이 높아 현금창출력 안정적이며 배당은 분기 지급, 현재 7% 전후 수익률 유지하반기 가격, 제품 믹스 개선 실패 시 증액보단 유지 가능성 높음이자보상배고건・202,219