[당신에게는 어텐션이 필요할 뿐이에요.] 인공지능이 코드를 만드는 원리를 알려드리죠.

한빛미디어

2024-08-28

by 임백준

페이스북 퍼가기 트위터 퍼가기

8,193

인공지능이 코드를 만드는 원리를 알려 드리겠습니다.

우리는 이제 챗GPT와 대화를 나누면서 상대방이 사람인지 인공지능인지 여부를 따지지 않는다.

대화 흐름이 너무 자연스럽기에 그럴 필요가 없다.

챗GPT는 우리가 필요로 하는 대답을 척척 제공해준다.

글이나 말의 자연스러움은 사람 이상이다.

논쟁의 여지는 있지만 유명한 튜링테스트도 사실상 통과했다.

비윤리적 요청이나 법적 문제가 있는 질문을 받았을 때 자기가 사람이 아니라 인공지능이라고 환기해주는 경우에 한해 우리는 대화를 나누는 상대가 인공지능이라는 사실을 깨닫는다.

이런 일이 어떻게 가능한 것일까.

비밀은 트랜스포머^Transformer다.

자동차에서 로봇으로 변하는 그 트랜스포머가 아니라, 2017년 구글 브레인의 연구원들이 인공지능과 관련해 최고의 학회로 손꼽히는 닙스(NIPS)에 발표한 논문 「Attention Is All You Need」가 설명한 딥러닝의 새로운 구조를 의미한다.

Architecture of a Transformers models — ▲트랜스포머 아키텍처

이 책의 목적상 우리는 이 논문의 내용이나 트랜스포머를 자세히 설명하지 않을 것이다.

궁금한 사람은 아카이브를 방문하여 직접 논문을 읽거나 관련 서적을 찾아보기 바란다.

관련도서
트랜스포머를 활용한 자연어 처리: 허깅페이스 개발팀이 알려주는 자연어 애플리케이션 구축
만들면서 배우는 생성 AI: 트랜스포머부터 GPT, DALL.E 2 , 스테이블 디퓨전, 플라밍고까지
인공지능 전문가가 알려 주는 챗GPT로 대화하는 기술

우리가 테슬라나 롤스로이스를 타기 위해 내부 내연기관의 작동 원리를 다 알지 않아도 되는 것처럼 인공지능을 활용해 창의적인 일을 수행하기 위해 트랜스포머 등 논문 내용을 모두 알아야 할 필요는 없다.

여기에서는 이런 것이 있다는 정도만 알고 넘어가자.
RNN이라고 불리는 이전 방식의 알고리즘을 사용하던 딥러닝 모델에 비해 트랜스포머 아키텍처를 사용하는 모델의 성능은 특히 언어 처리 분야에서 획기적으로 개선되었다.

“당신이 필요한 모든 것은 어텐션이다”라는 논문 제목에서 알 수 있듯, 트랜스포머 알고리즘은 어텐션^attention(주목)이라는 기법을 통해 모델이 다룰 수 있는 문장의 길이를 크게 늘렸다.

또한 인공지능은 학습 과정에서 엄청난 수준의 행렬 연산을 수행해야 하는데 트랜스포머 아키텍처는 그런 연산을 병렬적으로 처리하여 효율성을 높였다.

어텐션은 사실 우리가 일상생활에서 사용하는 기법과 다르지 않다. 많은 사람이 손에 칵테일을 들고 자유롭게 돌아다니는 파티에 참가 했다고 생각해보자.

파티에 참석한 사람들이 삼삼오오 모여 다양한 주제에 대해 큰소리로 떠들고 있다. 하지만 우린 바로 앞에서 말하고 있는 사람의 이야기를 잘 듣고 싶어 한다. 이때 무엇이 필요할까?

바로 어텐션이다. 우린 주변에서 들려오는 소리를 무시하고 관심 있는 사람이 하는 말에(만) 집중한다. 즉, 중요한 정보에 최대한 주의를 기울이고 덜 중요한 정보는 최대한 무시하는 게 어텐션이다.

트랜스포머의 어텐션 메커니즘은 내부적으로 수학적 방식을 사용하지만 파티에 참석한 사람이 하는 일과 동일한 작업을 수행한다.

인공지능 모델은 어떤 문장을 처리할 때 문장 주변에 존재하는 단어를 모두 고려하면서도 이런 어텐션 메커니즘을 통해 특정 단어에 더 많은 주의를 기울인다. 예를 들어 “The cat sat on the table.”이라는 문장이 있다고 하자.

“고양이가 테이블 위에 앉아 있다.”라는 뜻이다.

이 문장에서 ‘sat’이라는 단어는 ‘cat’과 ‘table’에 어텐션을 기울일 것이다. ‘sat’이라는 동작의 주체와 대상이 ‘cat’과 ‘table’이기 때문이다.

여기에서 ‘The’, ‘on’, ‘the’와 같은 단어는 별로 중요하지 않은 소음이다.

트랜스포머 모델은 이런 어텐션 메커니즘을 적극적으로 사용하여 문장의 각 단어가 주변의 다른 단어와 어떤 관련성을 가지고 있는지 명확하게 이해할 수 있게 되었다.

결과적으로 문장의 의미와 맥락을 전보다 더 잘 파악하게 되어 번역을 하거나 글의 내용을 요약할 때 더 매끄럽고 자연스러운 결과를 내놓을 수 있게 되었다.

트랜스포머의 능력에 탄복한 연구자들은 자신들이 개발하는 인공지능 모델에 트랜스포머를 적극 도입하기 시작했다.

이러한 아키텍처의 변화는 오픈AI의 GPT, 구글의 제미나이, 앤트로픽의 클로드 같은 대형 언어 모델^LLM의 기반이 되었다.

단백질 접힘 구조를 예측하는 데 탁월한 역량을 발휘하는 딥마인드의 알파폴드 역시 트랜스포머를 기반으로 한 모델이다.

오늘날 우리에게 놀라움을 주는 인공지능 모델은 사실상 모두 트랜스포머를 기반하고 하고 있다고 말해도 과언이 아닐 정도다.

하지만 인공지능을 연구하는 사람 중에는 인공지능을 AGI로 발전시킬 열쇠가 트랜스포머인 것은 아니라고 말하는 사람도 많다.

그 안에는 트랜스포머 신경망 아키텍처 논문을 작성한 당사자들도 포함되어 있다.

그들은 2024년 3월 엔비디아가 주최하는 연례 행사인 <GTC 2024>에 패널로 참가했다. 이제는 각자 창업한 회사에서 투자금을 받아 새로운 기술을 연구하고 있는 그들은 패널 토론에 참석해서 인공지능 세계가 2017년 트랜스포머가 발표된 이후 달라지지 않았다고 지적했다.

트랜스포머는 메모리 사용 등에서 여전히 비효율적인 측면이 많아 개선의 여지가 있으며, 인공지능이 더 발전하기 위해서는 트랜스포머를 낡은 기술로 보이게 만드는 새로운 기술이 반드시 등장해야 한다고 설파했다.

그런 새로운 기술을 찾기 위한 노력은 여러 곳에서 진행되고 있다.

예를 들어 2024년 4월 런던에서 개최된 <메타 AI 데이>에 참석한 얀 르쿤 수석은 메타가 트랜스포머에 기반한 생성형 인공지능의 한계를 뛰어넘는 새로운 방식의 인공지능을 연구하고 있다고 밝혔다.

제파^{JEPAJoint Embedding Predicting Architecture}라고 불리는 방식이다.

그는 확률에 의존해서 한 단어씩 내뱉는 트랜스포머는 실제로 아무 생각이 없는 기계일 뿐이라고 비판하고, 메타는 그와 달리 실제로 추론을 수행하는 인공지능을 개발하여 AGI에 도달할 계획을 가지고 있다고 밝혔다.

이런 노력은 메타만이 아니라 오픈AI를 비롯한 여러 회사에서 진행되고 있다.

아무튼 그건 미래의 일이고 지금은 트랜스포머가 대장이다.

트랜스포머가 등장한 이후 인공지능 모델은 언어와 이미지 등을 다루는 솜씨가 인간의 수준에 근접했다.

어떤 부분에서는 인공지능 특유의 장점을 살려 사람의 역량을 뛰어넘었다.

인공지능이 엄밀한 의미에서 튜링 테스트를 통과하지 못하는 이유는 다른 게 아니라 사람보다 말을 더 유려하게 하기 때문이라는 주장이 나올 정도다.

그렇지만 인공지능은 아직 사람 수준의 인지 능력이나 학습 능력에는 미치지 못한다.

그건 인공지능이 AGI에 도달한 이후에나 할 수 있는 말이다.

그럼에도 우리는 이미 어떤 영역에서 인공지능이 사람보다 뛰어나다는 말을 저항감 없이 받아들인다.

트랜스포머 이전에도 인공지능은 문장을 만들어낼 수 있었지만 트랜스포머가 등장한 이후 인공지능의 언어 능력은 사람과 구별하기 어려운 수준으로 발전했다.

인공지능 모델이 사람처럼 자연스러운 문장을 만들어낼 수 있는 이유는 인공지능이 실제로 사고를 하기 때문이 아니라 얀 르쿤이 비판한 것처럼 확률을 사용하기 때문이다.

확률을 사용한다는 것은 무슨 의미일까.

인공지능이 문장을 만드는 과정을 아주 간단히 설명하면 이렇다.

트랜스포머 아키텍처를 사용하는 인공지능은 하나의 단어를 내뱉은(출력한) 다음, 뒤에 따라올 수 있는 단어의 집합을 생각한다.

그 집합에 속한 단어 중에서 확률적으로 가장 그럴듯한 단어를 하나 선택한다.

그리고 그 단어를 출력한다.

단어를 고르는 작업은 어떤 추론이나 생각이 아니라 확률에 의해 이루어진다.

그래서 확률을 사용한다고 말하는 것이다.

트랜스포머는 이런 과정을 빠르게 반복하여 문장을 만들어낸다.

예를 들어 바로 앞 문단에서 “확률적으로 가장 그럴듯한…”이라고 적은 부분을 생각해보자. 이 문장을 인공지능이 작성한다면 ‘그럴듯한’이라는 표현의 뒤를 이어 어떤 표현이 가능하다고 판단할까.

수많은 명사가 떠오를 것이다.

사자, 호랑이, 빵, 시계, 자동차, 안경… 문법 구조상 어떤 명사도 가능하다. 하지만 그 문장보다 더 앞에 있는 문장, 혹은 문단 전체에 주목해보라.

그러면 ‘그럴듯한’이라는 형용사 다음에는 ‘단어’ 혹은 ‘말’과 같은 의미의 명사가 와야 전체 문장의 의미를 가장 잘 전달할 수 있다는, 즉 전체적인 의미를 가장 그럴듯하게 만들 수 있다는 점을 알 수 있을 것이다.

트랜스포머에서 확률은 이런 식으로 단어를 계속 이어가는 엔진 역할을 한다.

그리고 어텐션은 맥락을 이해하고 전체적인 의미가 일관성을 유지하도록 만드는 방향키 역할을 한다.

“인공지능은 트랜스포머 이전과 이후로 나뉜다. ” / AI 트루스 중에서

TAG : 얀르쿤 ,메타 ,meta ,인공지능 ,AI ,알파폴드 ,딥마인드 ,구글 ,오픈AI ,트랜스포머

이전 글 : [둠의 아버지 존 카맥] 가치의 원천이 코딩인 적이 있었나? 자기가 사용하는 기술에 매달리지 말라.

다음 글 : AI에서 수학을 다루는 방법

IT/모바일

[당신에게는 어텐션이 필요할 뿐이에요.] 인공지능이 코드를 만드는 원리를 알려드리죠.