AI가 시(Poetry)를 이해할 수 있을까?

GPT-3의 등장은 자연어 처리 분야에서 혁신적인 변화를 이끌었습니다. 이 모델은 1,750억 개의 매개변수를 활용해 방대한 양의 텍스트를 학습하며, 번역, 요약, 법률 검색, 의료 상담 등 다양한 분야에서 활용될 수 있습니다. 그러나 가짜 뉴스 생성과 같은 문제점도 존재하며, AI 모델의 윤리적 사용과 규제 방안에 대한 논의가 필요합니다

AIFRICA

Jun 24, 2022

Contents

최첨단 AI 자연어 처리 모델의 등장 새로운 언어 모델의 특징 전이 학습(Transfer Learning)AI 자연어처리의 발전 GPT-3 적용 예시 결언

최첨단 AI 자연어 처리 모델의 등장

8월 18일자 포춘지 블로그에 “AI가 시를 이해할 수 있을까”라는 기사가 눈에 띈다. 최근에 AI 중에 눈에 띄는 발전을 보이는 분야는 자연어 처리 분야이다.

정확히는 언어 모델이라는 분야인데 이전까지는 불가능하다고 생각되던 부분이 최근 몇 년간에 눈부신 기술의 발전으로 인해, 이제 보다 커다란 그림으로 우리 앞에 성큼 다가오고 있다.

그동안 인공지능(AI) 자연어 처리(NLP)에서 가장 화제가 되고 있는 플랫폼으로는 구글의 양방향 언어모델 버트(Bert), OpenAI의 단방향 언어모델 GPT-2, 기계신경망 번역(Transformer) 모델 등이었는데 올해 5월28일에 개방형 arXiv 에 31명의 OpenAI 연구자들이 GPT-3 라는 3세대 언어예측모델을 발표하면서 세간의 주목을 끌기 시작했다.

주변에서 개발자들만 이러한 용어에 익숙해왔는데 GPT-3 라는 용어를 최근 뜻하지 않은 주변 인물들로부터 듣고있다. OpenAI는 2015년 테슬라 CEO 엘론 머스크와 전 Y콤비네이터 대표였던 샘 앨트만이 설립한 비영리 및 영리 기업이다.

엘론머스크는 2018년 이사회에서 탈퇴하고 기증자로 남아있고 2019년에는 마이크로소프트가 1조 원을 투자한 바 있다. 구글이 인수한 DeepMind 와 경쟁하고 있다고 볼 수 있다.

새로운 언어 모델의 특징

GPT-3는 Generative Pre-trained Transformer 3 의 약자로 그 근간은 transformer 라는 언어 모델에 근거하고 있다.

이는 지난해 초에 공개한 소설 쓰는 인공지능 GPT-2 보다 훨씬 크고 혁신적인 모델이다.

이 모델은 4990억(499 Billion) 개의 단어(토큰)를 대상으로 웹과 책 등으로부터의 가중치에 따른 선택으로 3000억(300 Billion)개 단어를 샘플링하여 사전 훈련을 받았다. 그리고 1,750 억(175 billion) 개의 매개변수(parameter)가 사용되었다고 한다.

여기서 매개변수는 심층신경망의 층(layer)과 층 속의 뉴론(unit) 사이의 연산에서 생겨나는 매개변수 숫자인데 많을수록 복잡하다는 것을 의미한다. 이는 작년 초 GPT-2 대비 116배의 크기를 나타낸다.

GPT-3의 특징은 사람이 한 두 줄 정도의 문장을 던져주면, 사람이 적은 것인지 분간이 안 될 정도의 논리 정연한 장문을 만들어 낸다는 점이다.

사전 학습된 변역 (Pre-trained Transformer), 이게 무슨 말인고 하니 예전에는 입력되는 순차적인 언어들을 차례로 훈련시켜 어떤 단어가 신경망에 입력되었을 때, 그 다음에 어떤 단어가 올 것인가 등을 예측했다면 번역(transformer)모델이라는 것은 통째로 책이나 웹에 있는 초대형의 문장 세트를 엄청난 컴퓨터 용량에 한꺼번에 훈련시켜서 사전에 만들어 놓은 것을 말한다.

이 모델 에다가 API(응용 프로그램 인터페이스)를 제공하여 사용자들이 거의 모든 영어와 관련된 작업을 범용적으로 문자를 입력하면 이 훈련된 모델의 성능을 그대로 사용한 결과를 얻을 수 있게 만들었다는 것을 뜻한다.

뒤에 몇 가지 예제를 살펴보겠다.

전이 학습(Transfer Learning)

전이학습이란 심층신경망의 최고 성능이 입증된 모델의 가중치(weight) 모델을 그대로 가져와 비교적 작은 데이터세트에 적용하여 사용하는 것을 말한다.

예들 들어 2014년 이미지넷 인식대회에서 옥스포드대학 연구팀VGG 가 개발한 모델로서 16개의 심층신경망 층(layer)이 사용된 VGG16사전 훈련 모델을 사용한다고 하자.

이 VGG16 사전 훈련 모델을 사용하면 2014년 이미지넷 인식대회에서 준우승을 차지한 성능의 가중치가 그대로 소규모 데이터세트를 다루는 심층신경망에 적용되어 VGG16 에서의 장점을 누릴 수 있다.

우선 Keras 의 from keras.applications.vgg16 import VGG16 문을 선언해 줌으로써 VGG16 모델이 로드되고 아래 그림 1과 같이 입력 shape 를 맞춰주고 모델을 로드하면 된다.

그동안 이미지 분류 분야는 이러한 전이 학습이 고성능으로 사전 훈련된 모델의 가중치모델을 가져다가 적용하여 발전할 수 있는 계기가 되어왔지만 자연어처리분야는 이러한 사전 훈련 모델이 부진했는데 이제 이런 사전 훈련 모델을 통해 상용화를 가속화할 수 있는 단계로 접어들었음을 의미한다.

AI 자연어처리의 발전

자연어처리를 이해하는데 기초적으로 알아야하는 워드임베딩, skip gram 등의 기본적 지식을 30분을 투자해서 참을성 있게 들어 보실 분은 여기를 눌러 50분 분량의 유튜브 초기 30분을 들어보자.

초보자들은 조금 어려울 수 있지만 더 알고 싶으면 이러한 단어들을 유튜브나 구글에 검색하면 적지 않은 정보를 얻을 수 있다.

AI를 이용한 자연어처리를 이해하기 위해 Word2vec, Skip Gram, RNN, Bi-LSTM, GRU 같은 선행 기술들을 알고 있으면 좋지만, 빠르게 진화하고 있는 기술은 어쩌면 과거와의 단절을 통해 패러다임을 변화하는지도 모른다. 그 변화의 신호탄이 이 논문이었고 이전의 recurrent neural network모델을 쓰지 않고 encoder-decoder 기반의 attention만으로 이전의 문제점들을 극복해 낸다는 논문을 발표한다.

아래 그림2는 Transformer 의 구조이고 Bert는 Transformer 의 인코더-디코더 모델 중에 인코더 만을 사용한다.

GPT-3 적용 예시

아래는 GPT-3 가 코로나19에 대해서 상대방과 대화를 나누는 내용이다. 신기한 것은 GPT-3 의 데이터세트가 2019년 10월이어서 코로나를 모른다. 그러나 상황을 설명해주고 대화를 이어가면 할 수 있다. 아래 굵은 글씨가 GPT-3 가 생성한 결과이다.

미 버클리 대학생 리암 포어가 GPT-3를 사용해 작성한 블로그 게시물이 IT뉴스 큐레이팅 플랫폼인 해커뉴스에서 1위를 차지했다고 한다.

Casetext라는법률회사는 소송이 있을 때, 미국의 관습법 전체를 훈련 받은 GPT-3 가 일반 문장으로 질의를 던졌을 때,

예를 들어, 같은 개념에 대하여 다른 언급이 있었던 결과를 찾고자 할 때 사용한다고 한다.

꽤 전문적인 의학 지식도 답을 할 수 있다. 아래 굵은 글씨가 GPT-3 가 생성한 결과이다.

자 이제 GPT-3 가 시를 작성한 예를 보자.

AI 로 시를 생성하는 결과를 실험을 하는 사이트에 있는 T.S. Eliot 의 Hollow Man 이라는 시에 대한 GPT-3 가 생성한 시 에 대한 평가는 다음과 같다.

원작의 변형에 불과하다. 원작의 서정성과 음률이 없어 이 시의 영혼을 잃어버렸다. 아름다움은 비논리적인 영역으로 정보로서 코딩 될 수 없다. 대상에 대한 지향성의 경험은 컴퓨터 정보에는 획득될 수 없지만, 우리의 마음은 완벽하게 우리 자신들을 위해 ‘코딩’ 할 수 있다.

아래는 T.S Eliot 의 원작과 GPT-3 가 생성한 시를 비교해서 표시하였다. 오른쪽의 GPT-3 의 경우, 굵은 글씨로 표시한 원작의 4줄 정도를 GPT-3 에 알려주면 나머지 시를 GPT-3 가 생성하는 것을 볼 수 있다.

표1. T.S 엘리옷의 Hollow Man 원작 과 GPT-3 생성 본 비교

결언

앞의 예시에서 살펴본 데로, 무엇보다도 GPT-3의 장점은 영어로 되는 모든 작업에 적용할 수 있고 인공지능 전문 지식이 없어도 문자를 인공지능에 입력할 수만 있다면 처리 결과를 받아 볼 수 있다는 놀라운 범용성이다.

다양한 작업에 GPT-3 모델을 사용하기 위해 경사도 / 매개 변수 업데이트를 수행 할 필요가 없다고 한다. 무슨 말인가 하면, 작업 별 모델 아키텍처가 필요하지 않을 뿐만 아니라 대규모 사용자 지정 작업 별 데이터 집합 이 필요하지 않다는 개념이다. 이점은 최첨단 NLP 로 나아가는 큰 단계로 생각된다.

그러나 전작 GPT-2 가 소설 작성과 더불어 가짜 뉴스 생성의 이슈로 인해 모든 사람에게 개방하는 것에 조심스러운 입장인 OpenAI 의 입장을 생각하면, 누구나가 쉽게 접근할 수 있을지는 아직 모르겠다. OpenAI는 비영리법인인 OpenAI inc 와 영리법인인 OpenAI LP를 따로 가지고 있다. 아마도 영리법인을 통해 기업 고객들에게 서비스하지 않을까 하는 관측이 나오고 있다.

한글이 전세계가 사용하는 영어에 비해 규모의 경제에서 열세인 상황에서 GPT-3 에 필적할 성능을 구가하는 언어 모델의 탄생을 기대할 수 있을까 하는 생각이 들었다.

점점 AI가 국가별 패권주의로 치닫는 환경에서 우리도 대비를 해야겠다.