RAG 기반의 생성형 AI 개발, 꼭 알아야 할 세 가지

AIFRICA's avatar
Jul 10, 2024
RAG 기반의 생성형 AI 개발, 꼭 알아야 할 세 가지

지난 글을 통해서 인공지능의 할루시네이션의 원인과 해결 방안에 대해서 먼저 알아보고, 할루시네이션을 방지하는 기술인 RAG의 장점과 적용 사례도 살펴보았는데요.

이번 시간에는 RAG(Retrieval-augmented generation, 검색 증강 생성)를 활용한 생성형 AI 개발과 운영 시 꼭 고려해야 할 세 가지 사항에 대해서 자세히 알아보겠습니다.

RAG적용 시, 반드시 알아야 할 3가지

첫 번째, 우리 기업에 적합한 파운데이션 모델(Base LLM) 선정하기

성공적인 AI 프로젝트를 위해 가장 먼저 염두 해야 할 것은 '우리 기업이 AI 모델 개발을 통해 이루고자 하는 목적과 가용 자산'에 맞는 파운데이션 모델(Base LLM)을 선택하는 것입니다. 이 선택이 프로젝트 성공의 기본이자 필수 요소라고도 할 수 있는데요, 크게 두 가지 이유가 있습니다.

  1. 각 기업마다 데이터 유형과 문제의 복잡성이 다르기 때문에

    각 파운데이션 모델(Base LLM)은 특정 데이터 유형과 문제에 최적화되어 있습니다. 예를 들어, 텍스트 데이터 처리에 특화된 모델은 이미지 처리에 특화된 모델과 다릅니다. 한 의료 기관이 질병 진단을 위해 생성형 AI 모델을 도입한다고 가정한다면, 의료 영상 처리에 특화된 파운데이션 모델을 선택해야만 정확도가 높은 결과를 얻을 수 있습니다.

    따라서 보유한 데이터의 유형(숫자, 범주, 텍스트, 이미지 등)과 크기, 그리고 해결하려는 문제의 복잡성을 정확하게 파악해야 합니다.

    다양한 종류의 AI 파운데이션 모델

  2. 기업이 활용할 수 있는 자산을 최적화하여 활용해야 하기 때문에

    AI 모델은 대규모 데이터를 처리하고 복잡한 연산을 수행하므로, CPU(중앙 처리 장치)나 GPU(그래픽 처리 장치) 등 상당한 컴퓨팅 자원을 필요로 합니다. 또한 이와 관련한 비용은 꾸준히 증가하고 있기 때문에 잘못하면 예산이 필요 이상으로 지출될 수 있습니다.

    따라서 우리 기업의 목적과 상황(데이터 유형 및 크기 등)에 맞는 파운데이션 모델을 신중하게 선정하는 것이 중요합니다. 예를 들어 데이터 양이 많고 실시간 처리가 필요한 경우 GPU 활용이 필수적이지만, 그렇지 않은 경우에는 CPU 만으로도 충분할 수 있습니다.

    하지만, 기업에서는 어떤 파운데이션 모델이 적합한지 결정하는 것이 쉽지 않습니다. 따라서 에이프리카와 같이 다양한 생성형 AI 구축 경험이 있는 전문가의 도움을 받는 것이 좋습니다.

    두 번째, 반복적인 파인튜닝을 통해 모델 최적화하기

    반복적인 파인튜닝(Iterative Fine-Tuning)은 모델의 성능을 지속적으로 개선하고, 실시간 데이터를 반영하여 최적의 결과를 얻게 하는 중요한 요소입니다. 반복적인 튜닝을 통한 최적화가 중요한 이유를 자세히 살펴보겠습니다.

  1. 하이퍼파라미터 최적화

    반복적인 파인튜닝을 통해 모델 학습률, 배치 크기, 정규화 계수 등의 하이퍼파라미터를 최적화하여 모델의 성능을 극대화할 수 있습니다. 또한 다양한 하이퍼파라미터 설정의 반복 테스트를 통해 모델이 과적합(Overfitting)되거나 과소적합(Underfitting)되는 것을 방지할 수 있습니다.

  2. 모델 성능의 지속적인 평가와 개선

    모델의 성능을 주기적으로 평가하고, 성능 저하나 오류를 발견할 때마다 즉시 개선될 수 있습니다. 또한 모델의 예측 결과를 평가하고 필요한 경우 모델을 재학습하여 모델의 성능을 지속적으로 개선할 수 있습니다.

    LLMOps를 통한 모델 관리 화면 예시(출처: 에이프리카 치타 LLMOps)

  3. 실시간 데이터 반영 및 데이터 품질 관리

    데이터 정제 및 검증을 통해 데이터의 품질을 유지하고, 최신 데이터를 주기적으로 추가하고 모델을 재학습시킴으로써 모델의 성능을 향상시킬 수 있습니다.

  4. 환경 변화에 대한 빠른 적응

    반복적인 튜닝을 통해 다양한 데이터와 시나리오를 학습시키면, 다양한 환경과 상황에서도 일관된 성능을 유지할 수 있습니다. 또한 실시간 데이터나 최신 정보를 지속적으로 반영하면 예측의 정확성과 일관성을 향상시킬 수 있습니다.

RAG 적용과 함께 지속적인 파인튜닝이 이루어지면 AI 모델은 더욱 정확하고 신뢰할 수 있는 결과를 도출할 수 있습니다. RAG는 대규모 데이터베이스에서 관련 정보를 검색하여 모델의 응답 정확도를 향상시키고, 파인튜닝을 통해 모델이 특정 도메인에서 더 정확하게 작동하도록 도와주기 때문이죠.

세 번째, 효율적인 벡터 인덱싱과 자원 최적화하기

AI 모델을 구축하는 과정에서 텍스트, 이미지, 음성 등 다양한 형태의 데이터가 '임베딩(Embedding)'을 통해 고차원 벡터로 변환됩니다.

​벡터 인덱싱은 이러한 벡터를 효율적으로 저장하고 검색할 수 있도록록 하는 프로세스인데요. 대규모 데이터셋에서 필요한 정보를 빠르게 검색할 수 있게 할 뿐만 아니라, 검색 결과의 정확성도 유지시켜 줍니다.

​따라서 한글 문서에 적중율 94% 이상의 임베딩 모델을 보유하고 있고, 다양한 벡터 데이터베이스와 통합을 통해 효율적인 벡터 인덱싱을 지원하는 '가젤 RAG'와 같은 서비스를 활용하여 효과적인 벡터 인덱싱을 구현하는 것이 매우 중요합니다.

가젤 RAG 주요 기능 및 프로세스

​벡터 인덱싱을 통해 추론 시간을 단축하고 답변이 정확도를 높이는 것과 동시에 자원 최적화도 필수로 진행되어야 합니다.

​앞서 살펴본 것처럼 우리 기업의 상황과 목적에 맞는 Base LLM 모델을 선정하는 것을 시작으로, 실제 인프라의 사용 현황을 모니터링하고 데이터와 프롬프트를 철저하게 관리하는 것이 필요합니다. 이 모든 과정은 적절한 LLMOps 솔루션을 사용하여 효과적으로 수행할 수 있습니다.

​예를 들어, '치타 LLMOps'는 LLM을 효율적으로 관리하며, 모델 학습 및 추론을 최적화합니다. 또한 배포된 모델과 사용된 인프라를 모니터링 합니다. 이를 통해 실시간으로 리소스 사용량을 파악하고, 오토스케일링 기능으로 서비스 부하에 유연하게 대응할 수 있습니다.

​이렇게 LLMOps 솔루션을 활용하여 자원을 최적화하고, 효과적인 벡터 인덱싱을 통한 추론시간 단축과 답변 정확도를 높인다면 AI 모델의 성능을 극대화 할 수 있습니다.

성공적인 생성형 AI 도입과 활용을 위해서는 여러 가지 필수적인 조건들이 필요합니다. 적합한 Base LLM 선정, 반복적인 파인튜닝, 효율적인 벡터 인덱싱과 자원 최적화는 생성 AI 모델의 성능을 극대화하고 기업이 목적을 달성하기 위한 중요한 요소들입니다.

​'생성형 AI 구축은 정말 복잡하구나'라고 생각할 수 있지만, 다양한 구축 경험이 있는 전문가와 함께라면 어렵지 않게 해낼 수 있습니다. 에이프리카는 LLMOps 솔루션(치타)와 RAG 솔루션(가젤)을 통해서 생성형 AI 모델 도입과 운영을 위한 모든 과정을 지원합니다.

생성형 AI 도입과 활용에 대한 궁금증이 있으시면 언제든지 에이프리카로 문의해 주시기 바랍니다. 에이프리카가 적극적으로 함께 하겠습니다.


Share article
Subscribe to our newsletter.

AI and Cloud by Your Side. AIFRICA