IBM, 온칩 가속 기술 보유한 새로운 AI 프로세서 공개

IBM은 첨단 반도체 기술이 공개되는 핫 칩(Hot Chips) 연례 회의에서 기업 워크로드에 딥 러닝 추론 기술을 적용해 금융 사기에 실시간으로 대응하는 데 도움이 되도록 설계된 새로운 IBM 텔럼(Telum) 프로세서의 세부 정보를 공개했다.


▲ IBM 텔럼 프로세서

7nm EUV 기술 노드에서 개발된 텔럼 프로세서는 거래 처리 중에 AI 추론 기술을 적용할 수 있도록 온칩 가속 기술을 포함한 IBM의 첫 번째 프로세서이자, 삼성이 기술 개발 파트너로 참여한 제품이기도 하다. 3년의 연구 개발 기간을 거쳐 공개된 혁신적인 온칩 하드웨어 가속 기술은 △은행 △금융 △주식 매매 △보험 애플리케이션 및 고객 대응 전반에 걸쳐 대규모 비즈니스 통찰력을 얻는 데 도움을 줄 수 있도록 설계됐다. 텔럼 기반의 시스템은 2022년 상반기에 출시될 계획이다.

시장 조사 기관인 모닝 컨설트의 최신 연구에 따르면 응답자의 90%가 데이터가 있는 곳에 AI 프로젝트를 구축하고 실행할 수 있는 것이 중요하다고 응답했다[1]. IBM 텔럼은 데이터가 있는 곳에서 애플리케이션을 효율적으로 실행할 수 있도록 설계돼 추론을 처리하기 위해 상당한 메모리와 데이터 이동 기능을 요구하는 기존의 엔터프라이즈 AI 접근 방식을 극복하는 데 도움이 된다. 텔럼을 사용하면 성능에 영향을 미칠 수 있는 별도의 플랫폼 AI 솔루션을 호출하는 방식 대신, 미션 크리티컬 데이터 및 애플리케이션 가까운 곳에 있는 가속기를 통해 민감한 거래에 대해 대규모 추론을 실시간으로 실행할 수 있다. 또한 플랫폼 외부에서도 AI 모델을 구축하고 학습시킬 수 있으며, 분석을 위해 텔럼 기반의 IBM 시스템에 해당 AI 모델을 배포해 추론을 실행할 수 있다.

◇은행, 금융, 주식 매매, 보험 전반에 걸친 혁신

오늘날 기업은 사기 사건이 발생한 후 이를 잡아내기 위해 탐지 기술을 적용하는 것이 일반적이다. 이 프로세스는 현존 기술의 한계로 인해 시간이 오래 걸리고 대규모 컴퓨팅 연산이 필요하다. 특히 사기 분석 및 탐지가 기업의 핵심 업무와 연관된 거래나 데이터로부터 분리된 플랫폼에서 수행되는 경우에 더욱더 그렇다. 지연 시간 때문에 복잡한 사기 탐지는 실시간으로 이뤄지지 않는 경우가 많은데, 이는 소매업체가 사기가 발생했음을 인지하기 전에 이미 범죄자들이 탈취한 신용 카드로 상품을 구매할 수 있었다는 것을 의미한다.

미국 연방 거래 위원회의 2020년 소비자 센티넬 네트워크 데이터북(Consumer Sentinel Network Databook)에 따르면, 소비자들은 2020년에만 사기로 인해 33억달러 이상의 손실을 보았는데 이는 2019년 18억불에서 많이 증가한 것이다[2]. 텔럼은 기업 고객들이 사기를 ‘탐지’하는 수동적 입장에서 사기를 ‘방지’하는 능동적 태세로 사고를 전환하도록 도울 수 있다. 이는 많은 사기 사례를 잡아내는 데 집중하는 현재 상황에서, 서비스 수준(SLA, Service Level Agreement)에 영향 없이 거래가 완료되기 전에 사기를 방지할 수 있는 시대로 잠재적으로 진화함을 의미한다.

새로운 칩은 혁신적인 중앙 집중식 설계를 채택했기 때문에, AI에 특화된 워크로드에 대해 AI 프로세서의 모든 성능을 활용할 수 있도록 함으로써 △사기 탐지 △대출 처리 △거래 승인 및 결제 △자금 세탁 방지 △위험 분석과 같은 금융 서비스 워크로드에 이상적이다. 고객들은 이러한 새로운 혁신을 통해 기존의 룰 기반의 사기 탐지 방식을 개선할 수 있으며, 머신 러닝을 사용하고 신용 승인 프로세스를 가속화하고 고객 서비스 및 수익성을 개선하고 부당한 거래를 식별함으로써, 결제 과정을 더욱 효율적으로 만들기 위한 솔루션을 제안할 수 있다.

◇텔럼과 IBM의 칩 설계에 대한 풀 스택 접근 방식

텔럼은 실리콘, 시스템, 펌웨어, 운영 체제 및 주요 소프트웨어 프레임워크 전반에 걸쳐 있는 ‘하드웨어 및 소프트웨어의 공동 생성 및 통합’을 포함한 혁신적인 설계 및 엔지니어링이란 IBM의 오랜 전통을 따르고 있다.

텔럼 칩은 딥 슈퍼 스칼라 비순차 명령 파이프라인(deep super-scalar out-of-order instruction pipeline)의 구조를 갖는 8개 프로세서로 구성되며, 각 프로세서는 5GHz 이상의 클럭 속도로 수행되는데 이는 이기종 엔터프라이즈급 워크로드의 요구 사항에 최적화됐다. 전체적으로 재설계된 캐시 및 칩 인터커넥션 인프라(Chip-interconnection infrastructure)는 코어당 32MB 캐시를 제공하며, 32개의 텔럼 칩으로 확장할 수 있다. 듀얼 칩 모듈(DCM, Dual-Chip Module) 설계는 17개의 금속 층(Metal Layer) 위에 220억 개의 트랜지스터와 19마일의 와이어를 포함하고 있다.

<저작권자 ⓒ 미디어경제뉴스, 무단 전재 및 재배포 금지>

김하늘 기자 다른기사보기