insights-ko

엔비디아의 자율주행 생태계, 그리고 지도의 역할

“전방에 이중 주차된 차량이 있습니다. 우회하겠습니다.”

“헤이 메르세데스, 속도 높여봐.” “네, 속도를 올리겠습니다.”

2026년 3월 NVIDIA GTC 기조연설에서 공개된 영상 속 메르세데스벤츠 자율주행 AI와 운전자의 실제 대화 내용이다. 이 짧은 대화는 자율주행 산업이 카메라와 센서를 활용한 객체인식 수준을 넘어 추론을 내재한 피지컬 AI 시대로 진입했음을 상징적으로 보여준다. 엔비디아(NVIDIA) 젠슨 황 CEO는 “자율주행 자동차의 ChatGPT 모먼트가 도래했다(The ChatGPT moment of self-driving cars has arrived)”고 표현했다. 차량이 도로 위 상황을 인지하고 추론, 판단한 후 왜 그런 행동을 했는지 스스로 설명하고, 인간의 언어적 지시를 주행 정책에 즉각 반영하는 단계에 도달한 것이다.

알파마요, 추론형 자율주행을 위한 포트폴리오

엔비디아는 2026년 1월 CES에서 차세대 자율주행을 위한 통합적이고 개방적인 생태계인 알파마요를 발표했다. 알파마요는 엔비디아의 자율주행 풀스택 플랫폼의 기본 모델이다. 하드웨어인 드라이브 하이페리온(DRIVE Hyperion), OS 및 플랫폼 소프트웨어인 헤일로스 OS(Halos OS), 어플리케이션인 드라이브 AV(DRIVE AV), 모든 프로세스의 인프라 역할을 하는 옴니버스 코스모스(Omniverse Cosmos)와 뉴렉(NuRec)과 호환된다.

알파마요는 추론형 VLA(Vision-Language-Action) 모델, 알파심(AlpaSim) 시뮬레이터, 피지컬 AI 오픈 데이터셋이라는 세 축이 결합된 프레임워크이다.¹ NVIDIA Announces Alpamayo Family of Open-Source AI Models and Tools to Accelerate Safe, Reasoning-Based Autonomous Vehicle Development (https://nvidianews.nvidia.com/news/alpamayo-autonomous-vehicle-development).

추론형 VLA(Vision-Language-Action) 모델

VLA 모델은 시각적 인지(Vision), 언어 이해(Language), 행동과 의사결정(Action)을 트랜스포머 아키텍처 내에서 통합 처리한다. 기존 시스템은 인지 모듈과 판단 모듈이 분리된 구조이기 때문에 시각적 입력을 동작에 매핑해주는 직접적이고 원초적인 학습 방식이었다. VLA는 카메라, 라이다(LiDAR) 등의 인지 센서를 통해 입력된 시각적 데이터(Vision)를 언어적 개념(Language)으로 변환하여 응용 프로그램 별로 제공하고 상황 인식이나 운전 조작 등의 의사결정과 작업을 추론을 통해 생성하는(Action) “생각의 사슬(Chain-of-Thought, CoT)” 기법을 사용한다. 엔비디아 Cosmos Reason을 기반으로 한 데이터 플라이휠 구조로 구축이 이루어지고, 자율주행 차량이나 로봇에서 수집되는 실제 데이터로 추론 모델을 지속적으로 개선하여 결과를 향상시킬 수 있는 프로세스이다.

그런데 이 CoT 구조를 자율주행 시나리오에 그대로 적용하면 몇 가지 문제가 발생한다. 특정 이벤트와 그로 인해 발생하는 결과의 상관관계가 명확히 학습되지 않고, 애매한 위치에 사람이 서있는 등 모호한 이벤트에서 연결될 행동이 분명하지 않을 수 있다. 또한 가로등 같이 주행에 직접적 연관이 없는 주변 사물의 정보를 지나치게 고려하기도 한다.

알파마요는 이러한 문제를 해결하기 위해 CoT의 구조를 활용하되 인과적 근거(Causal Grounding)를 더욱 강화한 “인과의 사슬(Chain-of-Causation, CoC)” 방법론을 도입했다. 특정 이벤트와 결과적 행동만 1대1 학습을 하는 것이 아니라, 행동을 이끌어 낸 결정적 이벤트를 직접 설정해주고 논리적 근거를 함께 설명해주는 방식이다. 이를 통해 자동 레이블링의 정확도를 상당히 끌어올릴 수 있었다고 밝히고 있다.²From Research to Production: How Alpamayo Accelerates Autonomous Vehicle Development (https://www.nvidia.com/en-us/on-demand/session/gtc26-s81779/). 현재까지 약 8만 시간의 자율주행 데이터와 100억개의 파라미터, 70만 개의 CoC 세그먼트가 알파마요에 훈련되었다고 한다.³NVIDIA GTC Automotive Special Address (https://www.youtube.com/watch?v=7N38fD4ksnI).

알파심(AlpaSim) 시뮬레이션 툴

알파심은 폐쇄된 루프 안에서 현실적인 센서 데이터, 차량 역학, 교통 시나리오 등을 시뮬레이션 하여 자율주행을 테스트해볼 수 있는 파이썬 기반의 오픈 시뮬레이션 플랫폼이다. 새로운 자율주행 알고리즘 테스트, 엣지 케이스 혹은 까다로운 환경 시나리오에서 차량이 어떻게 동작하는지 파악, 복잡한 자율주행의 동작을 학습하고 디버깅하는 등 다양하게 사용될 수 있다.⁴AlpaSim GitHub (https://github.com/NVlabs/alpasim). 최근 GTC에서 발표에 따르면 AlpaSim의 기반이 되는 Omniverse 플랫폼에 매일 2백만개 자율주행 시뮬레이션을 실행시키고 있다고 한다.

피지컬 AI 오픈 데이터

알파마요 플라이휠 구조에서 실제 주행 데이터는 추론형 VLA의 학습 연료가 된다. 엔비디아는 허깅페이스(Hugging Face)를 통해 25개국 2,500개 이상의 도시에서 수집된 총 1,700시간 분량의 주행 데이터를 오픈소스로 공개했다. 데이터는 멀티 카메라, 라이다, 레이더 등으로 수집되었으며 다양한 교통상황, 날씨 조건, 장애물, 보행자 등의 환경 정보를 담고 있다.⁵NVIDIA Autonomous Vehicle Dataset – Hugging Face (https://huggingface.co/datasets/nvidia/PhysicalAI-Autonomous-Vehicles).

알파마요 1.5 업데이트

2026 엔비디아 GTC에서 공개된 알파마요 1.5 버전은 최신 모델인 Cosmos-Reason2 VLM을 채택해 기존 모델보다 복잡한 논리구조를 처리할 수 있게 됐다. 내비게이션 안내 기능이 탑재되어 자연어로 경로 혹은 차선 변경을 명령하면 목적지 정보와 관계 추론을 통해 주행에 반영하는 것이 가능해졌다. 또한 강화 학습 사후 훈련(RL post-training)을 통해 추론의 질, 추론-행동 사이의 일관성을 향상시켰다. 카메라 개수와 파라미터의 자율성도 커졌다. ⁶Expanding the Alpamayo Open Platform for Developing Reasoning AVs Across Models, Data, and Simulation (https://huggingface.co/blog/drmapavone/nvidia-alpamayo-1-5).

실제 자율주행 양산에 적용되는 알파마요

엔비디아는 알파마요 플랫폼으로 승용차와 공유 모빌리티 시장의 자율주행 산업을 동시에 공략하고 있다. 메르세데스 벤츠의 신형 CLA는 엔비디아의 알파마요 추론 엔진과 풀스택 Drive AV 소프트웨어를 최초로 탑재했다. 2026년 1분기 미국 시장 진출을 시작으로, 2분기에는 유럽, 하반기에는 아시아 시장에 순차적으로 공급될 예정이다.⁷Nvidia to launch its AI-based autonomous technology in 2026 (https://www.just-auto.com/news/nvidia-to-launch-its-ai-based-autonomous-technology-in-2026/).

우버(Uber) 로보택시 적용

엔비디아는 우버의 최근 파트너십을 통해 로보택시 상용화에도 알파마요를 적극 적용하기 시작했다. 양사는 2027년 상반기 미국 로스앤젤레스와 샌프란시스코 베이 지역을 시작으로 2028년까지 전 세계 28개 도시에 자율주행 로보택시를 확장할 예정이다. 먼저 데이터 수집 차량을 활용해 도시별 주행 환경에 맞춘 알파마요 엔진을 학습시키고, 오퍼레이터(운전자)가 동승한 시범운행을 거친 뒤, 최종적으로 레벨 4 완전 자율주행으로 전환한다는 로드맵이다.

양산차 OEM과 적극적 생태계 협력

엔비디아는 2028년부터 양산차에도 레벨4 자율주행 적용을 목표로 하고 있다. 주요 내용은 하드웨어인 드라이브 하이페리온을 양산차에 탑재한다는 것인데, BYD, Geely, Nissan, 현대차 등과 파트너십을 진행한다고 발표했다. 만약 우버와 로보택시 파트너십에 AI 모델, OS, 어플리케이션까지 포함한 엔비디아의 풀스택을 적용하고, 성공 사례가 만들어진다면 양산차 OEM과도 엔비디아의 자율주행 생태계가 확대 적용될 가능성이 높다.

자율주행에서 지도의 역할이 남아있는가

이전 어피스오브맵 인사이트(2025년 10월) 리포트는 엔드-투-엔드 자율주행 시대에도 여전히 남아있을 다섯 가지 지도의 역할을 꼽은 적이 있다. 위에 기술한 바와 같이 지난 몇달 간 변화한 자율주행 기술의 발전, 특히 엔비디아의 자율주행차 생태계를 고려해보면 각 역할은 다음과 같이 변화할 것으로 예측된다.

1. 고정밀 측위(High-Precision Localization)

센티미터 단위로 저장된 맵 데이터를 실시간 센서 값과 대조하여 차량이 도로 위 어느 차선, 어느 좌표에 있는지 위치를 찾는 것이 지도, 특히 고정밀 지도의 핵심 역할이었다. 그러나 알파마요 VLA 모델 같은 아키텍처는 실시간 센서 데이터를 기반으로 도로와 주변 사물의 구조를 즉각적으로 해석한다. 현실 세계에서 수집된 모든 센서 데이터를 시뮬레이션 상황으로 변환하여 자율주행 학습, 보조, 확인에 사용한다면, 지도의 측위 보조의 역할이 상당 부분 사라질 수도 있다.

2. 안전 경로 계획(Safe Path Planning)

지도 회사가 제공하는 기존의 내비게이션은 출발지부터 도착지까지의 도로망 정보와 규칙을 지도에 미리 담고, 이를 바탕으로 주행 경로를 미리 결정해 운전자에게 통보한다. 그러나 알파마요 1.5는 내비게이션 안내를 결론이 아닌 자율주행 추론 엔진의 입력값 중 하나로 받아들인다. AI가 목적지 까지 가기 위해 이번 교차로에서 우회전 혹은 좌회전을 해야 한다는 논리적 판단과 행동을 주행 중 직접 하게 되는 셈이다. 따라서 지도는 도로망의 연결성(topology)과 목적지의 정보를 전달하는 정도로 한정된 역할만 수행하게 될 수 있다.

3. GNSS 방해 구간 대응(Urban Canyons and Tunnels)

터널이나 빌딩 숲에서 GPS 신호가 끊길 때, 자율주행 차량은 미리 저장된 지도에 의존하여 안정적으로 주행을 지속한다. 이 역할은 추론 자율주행이 고도로 발전한 이후에도 오랫동안 남아있을 것으로 보인다. 뛰어난 추론 AI라도 센서 오염이나 신호 단절 시 환각(Hallucination)을 겪을 수 있는데, 이 때 지도는 미리 기록된 현실세계의 기억을 공유해주는 역할을 수행하고, 센서가 미처 보지 못하는 구간을 미리 알려주는 e-horizon의 기능을 제공하여 주행 안전도를 향상시킨다. 눈을 감고 주행하는 것을 방지하는 셈이다.

4. 중복성 제거 및 안전 보장(Redundancy and Safety Assurance)

지도는 센서가 바로 해석하기 힘든 현실세계의 다양한 위험 요소나 법규를 데이터베이스로 만들어 둔 일종의 운전용 알림판이었다. 시뮬레이션의 강점은 엣지 케이스를 무한 생성하고 학습시킬 수 있다는 점인데, 현실세계의 룰을 바탕으로 이미지와 사회적 규칙을 연계해 지속적으로 자율주행 AI에 내재화 시키는 것도 가능하다. 현실세계의 알림판 역할은 앞으로도 사라지지 않겠지만, 데이터베이스를 전달하는 형태가 반드시 좌표 기반의 지도 형태가 아니라, 이미지와 연동되는 데이터 팩토리의 형태로 바뀔 수도 있다.

5. 시뮬레이션(Simulation)

랜더링 프로그램으로 건물, 나무, 고가도로 등을 하나하나 3D 이미지로 만들고 2D 지도에 얹어 현실 세계를 구현하려던 그 시절의 노력은 자율주행 학습에서는 더이상 필요하지 않다. 클라우드 포인트 수집, 혹은 실제 주행에서 획득한 이미지 자체가 시뮬레이션의 직접적인 소스가 되는 것이다. 현실을 복제하는 속도와 기술이 빨라지는 만큼, 인간의 손을 요구하는 지도는 중간단계로서의 역할을 상실할 수 밖에 없다.

더 중요해지는 역할도 있다

자율주행에 있어서는 좌표기반의 데이터베이스로서의 기존 지도의 역할은 점점 줄어드는 것이 추세이다. 그러나 현실 세계를 내재화하는 기억, 그리고 규칙의 데이터 팩토리로서의 지도는 그 형태가 달라질 뿐 여전히 중요한 위치를 차지한다. 이 전환점에서 두 가지 현상을 주목한다.

데이터 통합의 주체

피지컬 AI, 특히 자율주행의 핵심 경쟁력은 얼마나 현실의 데이터를 촘촘히, 넓은 범위에서 확보하는가다. 특정 자동차 OEM이 단독으로 자사 차량의 데이터만으로 지도를 업데이트 할 경우, 주행 밀도가 낮은 지역은 단편적이고 피상적인 추론에 머무를 수 밖에 없다. 메르세데스, 현대차, BYD 등 글로벌 기업들이 엔비디아의 자율주행차 생태계에 합류하는 본질적인 이유 중 하나는 파편화된 데이터를 하나로 엮어 통합된 지성으로 만든 결과물이 필요하기 때문이다.

여기서 데이터 통합의 주체(Conflator)가 누가 될 것인가를 두고 경쟁이 치열해질 것으로 예상된다. 엔비디아는 하드웨어, 추론 모델, 어플리케이션, 소프트웨어까지 완벽하게 호환되는 사이클을 구축해 모든 데이터를 수집, 관리, 제공하고자 할 것이다. 톰톰(TomTom), 히어(HERE Technologies) 같은 기존 지도 업체들도 이 역할을 포기할 수 없다. 자율주행 학습에 기본 데이터 패키지 제공자로서의 역할을 가져오고 싶어할 것인데, 산업의 특성상 엔비디아만큼 많은 차량에서 양질의 주행 데이터를 확보하는 데 한계가 있을 것으로 예상된다.

새롭게 주목받을 핵심 역량

시뮬레이션 툴이 다양한 환경을 빠르게 생성할 수 있다 해도, 현실을 완벽하게 반영하는 것은 불가능하다. 따라서 두 분야의 전문가의 역할이 중요해질 것으로 보인다.

로컬 데이터 소스 전문가

전 세계 모든 지역과 도로의 사고, 통제, 새로운 교통 법규 소식 등을 지구 반대편에서 실시간으로 가상화하는 것은 경제적, 시간적으로 불가능하다. 각국의 고유한 교통 문화, 규칙, 세밀한 도로 사정의 변화 등을 실시간 데이터 팩토리에 정확하고 정교하게 공급할 수 있는 현지 전문가가 다시 가치를 인정받을 것이다.

시뮬레이션 아키텍트

시뮬레이션을 생성하는 모든 과정에 소스 데이터에서 완성된 환경까지 자동으로 이루어질 수는 없다. 현실의 물리적 규칙을 완벽하게 이해하면서도 실제 도로 데이터를 즉석에서 시뮬레이션용 에셋으로 변환하고 환경을 통제하는 능력은, 추론 기반의 자율주행 생태계에서 핵심 역할을 할 것이다.