이 동영상을 제작하기 위해 Arm으로부터 제작비를 지원받았습니다.
Arm이 컴퓨텍스 2023에서 2024년 출시될 안드로이드 스마트폰에 들어갈 새로운 CPU 아키텍처 Cortex-X4, Cortex-A720, Cortex-A520과 새로운 5세대 GPU 아키텍처를 적용한 Immortalis-G720, Mali-G720, Mali-G620을 포함한 TCS23을 발표했습니다.
발표된 내용을 면밀히 분석하는 걸 넘어서 Arm의 클라이언트 사업부 부사장님과 CPU, GPU 개발을 이끄는 디렉터님들과의 인터뷰를 통해 완벽 분석 버전을 준비했습니다.
결론만 말씀드리면 내년 안드로이드 플래그십 스마트폰의 성능, 기대해봐도 좋을 것 같습니다.
더 자세한 내용은 영상 보시죠.
아래 내용은 인터뷰 전문입니다(영상에 포함된 질문 답변은 제외).
Q1. 최신 안드로이드 플래그십 휴대폰과 비교하여 Cortex-X4에서 15% 더 높은 성능을 달성한 비결은 무엇인가요?
A1: 여러 개선이 있었는데, 크게 세 가지 정도로 정리할 수 있을 것 같습니다.
첫번째는 IPC의 개선입니다.
IPC를 개선하기 위해 프론트엔드에서는 프리페처부터 다양한 개선이 있었고, 코어의 백엔드에서는 동시에 실행되는 명령어의 개수를 늘렸습니다.
두 번째는 메모리 서브시스템의 강화입니다.
마지막은 코어 자체의 IPC 개선 뿐만 아니라 전체 시스템의 한 구성요소로써 전체 시스템을 최적화하여 추가적인 클럭 속도 향상 역시 15% 더 높은 성능 향상에 기여합니다.
여기에 더해 지금까지 말씀드린 건 싱글스레드 성능인데 말씀드린 것처럼 이번 TCS23에서 고객사는 코어를 최대 14개까지 확장할 수 있고, L3 캐시 크기를 32MB까지 늘릴 수 있습니다.
저희가 Cortex-X를 다룰 때 주로 이야기하는 건 안드로이드 플래그십이지만, 더 나아가서 랩탑이나 데스크톱 같이 멀티 스레드 성능을 더 많이 요구하는 경우에는 더 큰 성능 향상을 확인하실 수 있을 겁니다.
Q2. DSU의 최대 14개 코어까지 구성 가능이라는 표현은 미리 구성된 몇 가지 시나리오만 가능하다는 의미인지, 아니면 사용자가 14개의 코어 각각을 어떤 코어로 사용할지 유연하게 지정할 수 있다는 의미인지 궁금하다.
A2. 발표에서 우리가 보여준 내용은 말 그대로 예시입니다. 당연히 말씀하신 것처럼 유연하게 구성이 가능합니다. 그래서 DSU의 첫 글자를 Dynamic으로 정했습니다. 다만 예시를 들 때 저희가 아무 구성이나 예시를 든 건 아니고, Arm에서 보기에 실제로 Arm의 아키텍처를 많이 사용하는 주요 시장들에서 적절한 구성을 미리 구성을 한 거라고 보시면 됩니다.
Q3. 제가 이해하기로 DSU는 Compute Subsystem에 속한 CPU 코어들이 공유하는 L3 캐시를 포함하고, 코어들을 연결하는 등의 여러 로직이 포함되어 있는 것 같은데, 이 L3 캐시는 어플리케이션 프로세서의 다른 구성요소, 예를 들어 GPU나 NPU가 접근할 수 있는 SLC(System Level Cache)와는 분리된 개념인가요?
A3. 정확히 이해하신 것 같습니다.
CPU 입장에서 캐시 계층 구조를 보자면 코어 각각에 할당된 L1과 L2 캐시가 있고, DSU에 포함된 공유 L3 캐시가 있습니다. 그리고 DSU를 넘어서 CPU, GPU, NPU를 포함해서 다양한 AP의 서브시스템이 접근할 수 있는 시스템 레벨 캐시가 따로 존재합니다.
당연히 이런 캐시 구성 역시 고객사가 필요에 따라 구성이 가능합니다.
Q4. 가벼운 질문으로 돌아와서 Cortex-X4가 탑재된 디바이스는 언제 출시될 예정인가요?
A4. 과거의 사례를 보면 이렇게 TCS 아키텍처를 발표하게 되면 보통은 그 다음해 초에 실제 디바이스에 탑재되어 왔습니다.
다만 이건 파트너사의 로드맵에 따라 달라질 수 있기 때문에 이번에도 반드시 이렇게 될 거라고 장담할 수는 없지만 그래도 내년 초반 쯤에 실제 디바이스를 볼 수 있을 거라는 예측이 가장 일반적일 것이라고 예상합니다.
Q5. 대부분의 성능 비교가 iso-frequency, iso-process 기반으로 이루어졌던데, 내년에 출시될 프로세서가 올해 출시될 프로세서에 비해 더 진보한 공정을 채택하게 되면 아키텍처 차이로 인한 성능 차이 뿐 아니라 공정에 의한 성능 차이가 동시에 반영되어 오늘 발표한 것보다 더 큰 성능 향상을 보일 것이라고 기대해도 될까요?
A5. 네. 굉장히 좋은 질문이고, 저희도 그럴 것이라 기대하고 있습니다.
계속 비슷한 이야기를 하게 되는 것 같은데 생산 공정에 갑작스럽게 차질이 생길 수도 있고, 저희 아키텍처를 최종적으로 어떤 공정에서 제조하게 될지는 파트너사의 로드맵에 달린 문제이기 때문에 역시 장담할 수는 없습니다.
그래서 저희는 보수적으로 15%의 성능 향상을 제시하였고, 말씀하신 것처럼 더 큰 성능향상을 기대하고 있습니다.
Q6. 이건 개인적으로 궁금한 부분인데, 자료를 보니까 FPGA에 Compute subsystem을 구축하고 실제로 구동해서 성능을 비교했던데, FPGA 위에서 테스트를 한 이유가 궁금합니다.
A6. 저희는 최종 양산 전 단계에서 아키텍처의 성능을 측정해야 하기 때문에 설계 단계에서는 소프트웨어 시뮬레이션 등을 통해서 성능을 비교하고, 어느 정도 설계가 완성이 되면 FPGA에 실제로 회로를 구성하여 성능을 비교하는 방식을 사용합니다.
Q7. 부사장님의 이번 발표에서 이번에 발표한 TCS23을 TSMC의 신공정인 N3E 공정에서 테이프아웃 했다는 말씀을 해 주셨는데, 이렇게 Physical한 implementation을 미리 구축하는 작업을 TSMC 뿐 아니라 삼성 파운드리나 인텔 파운드리 서비스와도 함께 하고 계신가요?
A7. 지금 당장 말씀드릴 수 있는 게 많지 않습니다. 다만 저희가 과거에 인텔 파운드리 서비스와 협력하고 있다는 발표를 한 적이 있는데 그 정도까지만 말씀드리겠습니다.
이번에 TSMC의 N3E 공정에서 저희 아키텍처를 테이프아웃 했다는 것은 굉장히 최신 공정에서 저희 아키텍처가 실제로 물리적으로 구현되어 실리콘 칩으로 만들어졌을 때 실제로 잘 동작한다는 일종의 개념증명의 역할을 할 수 있습니다. 당연히 N3E 공정 외에 현재 널리 사용되고 있는 다른 공정에서도 새 아키텍처들을 사용할 수 있습니다.
Q8. 최근에 출시된 Geekbench 6의 MT 워크로드가 기존 Geekbench 5와 좀 다른 방식으로 MT 성능을 측정합니다. SPEC2017 benchmark와 비교하면 Geekbench 5는 SPECrate에 가까운 방식이라면 Geekbench 6는 SPECspeed에 가까운 방식으로 보입니다. 어떤 metric이 더 의미있는 metric이라고 생각하는지 궁금합니다.
A8. 일반론적으로 저희는 특정 벤치마크가 다른 벤치마크보다 더 중요하다거나 이런 식으로는 생각하지 않습니다. 다양한 벤치마크와 실제 앱들을 이용한 성능 측정 등이 모두 제품 개발에 중요한 목표가 됩니다.
이번 Geekbench 6 개발 과정에 Arm도 크게 기여했습니다. SPEC 벤치마크 역시 컨소시움을 통해 다양한 기업들과 교류하고 있습니다.
Q8-1. 조금 더 자세하게 질문을 드리면 SPECrate 처럼 동일한 독립적인 작업 여러 copy를 만들어 스루풋을 측정하는 방식과 SPECspeed에서 여러 코어를 이용하는 방식처럼 여러 스레드가 단일한 작업을 마치기 위해 협업하여 걸리는 시간을 재는 방식, 싱글 스레드 성능 중에 어느 쪽이 좀 더 Arm 아키텍처가 주로 사용되는 모바일 환경에 적합한 벤치마크인가요?
A8-1. 일단은 단일한 SPECrate copy를 한 코어에서 실행시키는 싱글 스레드 성능이 상당히 중요하다고 생각합니다. 말씀하신 여러 스레드가 단일한 작업을 수행하는 데 걸리는 시간을 재는 것 역시 실제 사용사례와 유사한 좋은 벤치마크 방법이라고 생각합니다.
다만 동일한, 독립적인 SPECrate copy를 여러 코어에 할당해서 돌리는 방법의 경우에는 저희가 생각하기에 모바일 환경에서의 워크로드와는 거리가 멀다고 생각합니다.
Q9. Arm에서 AI 성능을 측정하기 위해 사용하는 표준 벤치마크가 있나요?
A9. 다양한 벤치마크를 사용하고, 단순히 벤치마크 뿐 아니라 실제 사용자들이 사용하는 앱을 통해서도 테스트를 수행합니다.
이렇게 다양한 시나리오를 통해서 peak 성능, 지속 성능을 모두 측정하게 됩니다. 물론 Peak 성능도 의미가 있지만 Peak 성능의 경우 실제 모바일 사용에서는 방열 등의 여러 문제로 인해서 Peak 성능이 30초 이상 지속되기 어렵기 때문입니다.
다시 돌아와서, 특히 AI 분야는 굉장히 활발하게 발전하고 있기 때문에 그때그때 필요한 다양한 벤치마크를 사용해서 성능을 평가하게 됩니다.
개발 방향으로 말씀을 드리면 저희는 CPU, GPU 등이 동시에 사용되는 이기종 컴퓨팅을 수행할 때 범용 목적의 성능을 높이는 데 가장 주력하고 있습니다. 이 성능 향상을 위한 노력에는 하드웨어적인 측면 뿐 아니라 Compute 라이브러리, NN 라이브러리 등을 통한 소프트웨어적인 노력이 포함됩니다. 이런 노력을 통해서 TCS 단위의 AI 성능이 2년마다 2배정도 상승하고 있습니다.
Q10. 지금까지 Arm 아키텍처는 모바일 시장에서 주로 사용되었는데 추후 PC 시장 진출 등에 Arm 차원에서 좀 더 적극적인 움직임을 보일 계획이 있나요?
A10. 발표회에서도 말씀드린 것처럼 모바일 시장 뿐 아니라 HPC 등의 시장으로도 확장하려는 의지가 있고, 확장해 나가고 있다고 말씀을 드리고 싶습니다. 실제로 랩탑, 데스크톱, 데이터센터, 자율주행, IoT 등 다양한 시장으로 확장해나가고 있습니다.
이번 DSU 설계에서 최대 14개의 코어를 커스텀할 수 있게 한 부분이나 32MB까지 L3 캐시를 늘릴 수 있도록 한 점 등은 이런 노력의 일환입니다.
#Arm #computex #TCS23
0:00 Arm
0:47 CPU
2:38 Cortex-X4
6:09 Cortex-A720
9:36 Cortex-A520
10:10 컴퓨트 서브시스템
13:04 GPU
13:56 메모리 대역폭
16:04 레이트레이싱
19:03 토탈 컴퓨트 솔루션
20:57 마무리