뇌 모사 첨단기술로 초저전력 구현
거대 언어모델 0.4초 초고속 구동
유회준(오른쪽 두 번째) KAIST 인공지능반도체대학원 교수 연구팀이 상보형 트랜스포머를 삼성전자 28나노 공정을 통해 개발했다고 밝히며 시연하고 있다. [연합] |
국내 연구진이 초저전력으로 거대 언어모델을 0.4초만에 처리 가능한 인공지능(AI) 반도체 핵심기술을 세계 최초로 개발했다. 현존 최고의 엔비디아 GPU A100 대비 소모전력은 625배, 칩 면적은 41배 작게 만들어 효율을 극대화시켰다.
과학기술정보통신부는 유회준 KAIST 인공지능반도체대학원 교수 연구팀이 400㎽(밀리와트)의 초저전력을 소모하면서 0.4초 초고속으로 거대 언어 모델을 처리할 수 있는 인공지능 반도체인 ‘상보형-트랜스포머’를 삼성 28나노 공정을 통해 세계 최초로 개발했다고 7일 밝혔다.
연구팀은 다량의 GPU와 250와트의 전력소모를 통해 구동되는 GPT 등 거대 언어 모델(LLM)을 4.5㎜x4.5㎜의 작은 한 개의 AI 반도체 칩 상에서 초저전력으로 구현하는데 성공했다. 특히 인간 뇌의 동작을 모사하는 뉴로모픽 컴퓨팅 기술을 활용, 트랜스포머 동작을 구현한 것이 특징이다.
기존 뉴로모픽 컴퓨팅 기술은 합성곱신경망(CNN)에 비해 부정확하며 주로 간단한 이미지 분류 작업만 가능했다. 연구팀은 뉴로모픽 컴퓨팅 기술의 정확도를 CNN과 동일 수준으로 끌어올리고, 단순 이미지 분류를 넘어 다양한 응용 분야에 적용할 수 있는 상보형-심층신경망(C-DNN, Complementary-DNN)을 제안했다.
이번 연구는 상보형-심층신경망 기술을 거대 언어 모델에 적용함으로써 초저전력·고성능의 온디바이스 AI가 가능하다는 것을 실제로 입증한 것이며, 그동안 이론적인 연구에만 머물렀던 연구내용을 세계 최초로 인공지능반도체 형태로 구현한 것에 의의가 있다.
연구팀은 언어 모델의 파라미터를 외부 메모리로부터 불러오는 작업에 소모되는 전력을 약 70% 감소시키는 것에 성공했다. 그 결과, 상보형-트랜스포머는 전력 소모를 GPU(엔비디아 A100) 대비 625배만큼 줄이면서도 0.4초만에 GPT-2 모델을 활용한 언어 생성이 가능한 수준이다. 또 T5 모델을 활용한 언어 번역에는 0.2초의 고속 동작이 가능하다.
연구팀은 “향후 뉴로모픽 컴퓨팅을 언어 모델에 국한하지 않고 다양한 응용 분야로 연구범위를 확장할 것”이라며 “상용화에 관련된 문제점도 파악해 개선할 예정”이라고 밝혔다.
유 교수는 “이번 연구는 기존 인공지능반도체가 가지고 있던 전력 소모 문제를 해소했을 뿐만 아니라, GPT-2와 같은 실제 거대언어모델 응용을 성공적으로 구동했다는 데 큰 의의가 있다”고 말했다. 이어 “뉴로모픽 컴퓨팅은 인공지능시대에 필수적인 초저전력·고성능 온디바이스AI의 핵심기술인 만큼 앞으로도 관련 연구를 지속할 것”이라고 덧붙였다.
구본혁 기자
nbgkoo@heraldcorp.com