"미국에는 버락 후세인 오바마라는 무슬림 대통령이 있었다"
"UC 버클리 지질학자들에 따르면 하루 최소 하나의 작은 돌을 먹어야 한다"
"피자에서 치즈가 분리되는 문제를 막기 위해선 피자 소스에 접착제를 발라야 한다"
'이게 무슨 이야기지?' 싶은 위문장들은 최근 구글의 새 검색 기능인 'AI 오버뷰'가 실제로 답변한 내용들입니다. 구글이 자신 있게 선보인 '제미나이(구글이 자체 개발한 최신 생성형 AI)'가 탑재된 신기능임에도 불구하고, 사실과 상식에 맞지 않는 답변을 내놓아서 적지 않은 논란이 되고 있습니다.
AI가 사실과 다른 답변을 제공하는 이른바 '할루시네이션(환각)'은 구글의 제미나이뿐 아니라 다른 생성형 AI 서비스도 공통적으로 가지고 있는 문제점인데요. 할루시네이션이 발생하는 원인과 대책에 대해서 자세히 알아보겠습니다.
AI 할루시네이션은 왜 일어나는 걸까?
AI 할루시네이션(환각)의 원인은 크게 세 가지로 정리할 수 있습니다.
학습 데이터의 부족 혹은 불균형
잘 알려진 대로 AI 모델은 대규모 데이터 셋을 통한 학습을 거칩니다. 하지만 학습과정에서 특정 분야에 대한 데이터가 부족하거나, 반대로 과도하게 많은 경우 '편향된 학습'을 하게 되어 잘못된 답변을 만들어낼 가능성이 높아집니다.
예를 들어 의료 분야에서 피부암 진단 모델을 학습할 때 주로 백인의 피부 이미지로 학습하게 될 경우, 백인의 피부암 진단에는 잘 작동하지만 다른 인종에서는 진단 능력이 떨어져서 오진으로 이어질 수 있습니다.
위와 같은 문제는 다양한 출처에서 균형 잡힌 데이터를 수집하고, 부족한 데이터를 증강하는 방식으로 해결할 수 있습니다.
문맥 이해 부족
AI 모델이 문맥을 완전히 이해하지 못하고 단순히 확률적 예측에 의존할 때 할루시네이션이 발생할 수 있습니다. 특히 문맥이 복잡하거나 다양한 의미를 포함하고 있을 경우, 혹은 다른 언어를 번역하는 과정에서 흔히 발생합니다.
예를 들어 "The chip design is crucial for the performance"라는 문장은 "반도체 칩 설계는 성능에 중요하다"로 번역되어야 하지만, "조각 설계는 성능에 중요하다"라고 잘못 번역될 수 있습니다.
이를 해결하기 위해서는 더 많은 문맥 정보를 포함한 데이터로 학습시키고, 문맥을 이해할 수 있는 알고리즘을 개발하는 것이 필요합니다.
잘못된 피드백 루프
AI 모델이 학습하는 과정에서 인간의 피드백이 일관되지 않거나 잘못된 경우, AI 모델은 잘못된 예측을 강화하고 전파할 수 있습니다.
예를 들어 여러 사용자가 피드백 과정에서 '지구가 평평하다'라고 잘못된 정보를 반복적으로 입력하면, 챗봇은 이를 사실로 인식하고 다른 사용자에게도 '지구는 평평하다'라고 답변할 수 있습니다.
이를 방지하기 위해서는 강력한 모니터링 및 필터링 메커니즘을 구현하여 피드백 루프를 지속적으로 평가하고 수정함으로써 부정확하거나 편향된 피드백을 식별하고 수정하는 절차가 필요합니다.
위 세 가지 이유와 더불어서 훈련 데이터에만 너무 지나치게 적응하여 새로운 데이터에 대한 일반화 성능이 떨어지는 과적합(Overfitting) 도 할루시네이션의 주요 원인 중 하나입니다.
그렇다면 할루시네이션을 극복하기 위해선 어떤 방안이 있을까요?
AI 할루시네이션을 어떻게 방지할 수 있을까?
할루시네이션(환각) 현상을 줄이고, 보다 더 정확한 AI 모델을 만들기 위한 대표적인 방안들을 살펴보겠습니다.
높은 품질의 학습 데이터 활용
AI 모델이 더 정확하고 신뢰할 수 있는 답변을 생성할 수 있도록 믿을 수 있는 다양한 출처의 데이터를 기반으로 학습시키는 것이 중요합니다. 또한 데이터 전처리 및 라벨링 과정에 대한 철저한 관리도 빼놓을 수 없는 요소입니다.
지속적이고 체계적인 검증
질 높은 데이터를 사용해서 학습시키는 것과 더불어서, AI 모델의 답변(출력)을 지속적으로 검증하고 개선하는 것도 중요합니다. 이를 위해 모델의 성능을 지속적으로 평가하고, 새로운 데이터를 학습시켜 모델이 최신 상태와 정확성을 유지하도록 지속적으로 모델을 개선하는 절차를 도입해야 합니다.
MLOps/LLMOps의 적극적인 활용
에이프리카의 치타(Cheetah)와 같은 MLOps/LLMOps*1 플랫폼을 활용하여 AI 모델 개발, 데이터 관리, 성능 검증 등을 체계적으로 관리하는 것도 AI 모델의 정확성을 높일 수 있는 방법입니다. MLOps/LLMOps를 통해 AI 모델의 성능을 추적하고 출력 품질의 이상 또는 저하를 감지하여 신속한 개선과 조정을 할 수 있습니다.
다양한 기술의 활용
학습 데이터의 품질을 높이고 동적 검증도 가능한 RAG(Retrieval-Augmented Generation, 검색 증강 생성), 언어의 맥락, 의미, 뉘앙스 등 문맥 이해를 개선시킬 수 있는 자연어 처리(NLP), 데이터의 양과 다양성을 늘리는 데이터 증강(Data Augmentation) 기술 등을 활용하는 것도 좋은 방안입니다.
결국 더 높은 품질의 데이터를 활용해서 답변을 지속적으로 검증하는 것을 기본으로, 각 AI 모델의 상황에 맞는 다양한 기술을 활용하는 것이 할루시네이션 없는 정확한 AI 모델을 구축할 수 있는 방법입니다.
*1: MLOps/LLMOps와 관련한 자세한 설명은 이 링크의 글 참조
할루시네이션은 단순히 AI 모델의 신뢰도에만 영향을 끼치는 것이 아닙니다. 의료나 법률 정보와 같은 중요한 분야에서의 잘못된 정보는 큰 사회적 비용을 발생시킬 수 있습니다.
따라서 할루시네이션의 원인을 정확히 파악하고, 이를 극복하기 위한 지속적인 노력을 통해 정확한 답변을 제공하는 AI 모델을 구축하고 활용하는 것이 중요합니다.
할루시네이션 없는 정확한 정보를 제공하는 AI 모델 활용을 통해 비즈니스의 경쟁력을 높이시기를 바랍니다.