폐쇄망에서의 엔터프라이즈 AI 플랫폼 구축사례_현대글로비스
현대글로비스는 글로벌 종합물류회사로서, 최고의 자동차 물류 전문 기업을 목표로 고객 가치 사슬 전반의 효율을 높이며 지속 가능한 성장을 추구하고 있습니다. 이를 위해, 기존에 운영 중이던 빅데이터 분석 시스템에 더해 AI 기술을 도입하여 사내외 AI 서비스 창출을 위한 엔터프라이즈 AI 개발 플랫폼을 구축하고자 했습니다.
일반적으로, 대기업의 AI 개발 시스템은 보안 이슈를 해결하기 위해 폐쇄망 환경에서 구축되는 경우가 많습니다. 폐쇄망은 외부 인터넷과의 연결이 완전히 차단된 네트워크로, 외부 위협을 차단하고 민감한 데이터를 보호하는 데 매우 효과적이기 때문입니다. 하지만, 이 환경에서는 최신 소프트웨어 업데이트와 보안 패치 적용이 번거롭고, 외부의 오픈소스 라이브러리나 API 활용이 어렵습니다. 또한, 클라우드 기반 개발 도구에 접근이 제한되며, 팀 간의 실시간 협업과 데이터 동기화가 어려워 개발 작업이 비효율적으로 진행될 수 있습니다.
이번 프로젝트의 가장 큰 과제는 이러한 엔터프라이즈 환경에서의 폐쇄망 제약을 극복하고, 빠르게 진화하는 오픈소스 기반 AI 기술들을 집약하여 AI 개발 시스템에 적용하는 것이었습니다. 이 시스템은 기존 빅데이터 시스템과 호환성을 유지하면서도, 확장 가능하고 운용 유연성이 높은 쿠버네티스 환경으로 구축해야 했습니다. 또한, 사내 사용자들이 시스템을 통해 독자적으로 AI 서비스를 개발하고, 협업이 가능한 플랫폼을 제공해야 했습니다. 마지막으로, 이러한 목표를 단기간 내에 비용 효율적으로 달성하여 현대글로비스가 AI 기술력 면에서 업계를 선도할 수 있도록 해야 했습니다.
AI 개발 시스템 구축사업의 주요 과제
폐쇄망 환경이라는 제약된 조건에서 현대글로비스가 이미 보유하고 있는 방대한 데이터를 최대한 활용하여 AI 모델을 구축하기 위해서 다섯 가지 요청사항이 있었습니다.
1. 폐쇄망 환경에서 다양하게 사용가능한 AI Library/Framework 필요
현대글로비스는 보안 수준이 매우 높은 폐쇄망 환경에서 AI 개발을 진행해야 했습니다. 이러한 환경에서는 외부 인터넷과의 연결이 차단되어 있어, 필요한 AI Library와 Framework를 설치하고 관리하는 데 상당한 어려움이 있었습니다. 특히, AI Library는 다양한 의존성 문제로 인해 여러 관련 패키지들을 함께 설치해야 하는 경우가 많아, 폐쇄망 환경에서 더욱 복잡한 문제를 야기할 수 있는 상황이었습니다. 현대글로비스는 폐쇄망 환경에서 이러한 문제를 방지하고, AI 개발이 안전하고 효율적으로 이루어질 수 있는 환경을 구축해야 했습니다
2. 내부 빅데이터 및 레거시 시스템과의 원활한 연계
현대글로비스는 이미 GBP(Glovis Bigdata Platform)를 통해 데이터를 수집하고 있었지만, 이 데이터는 주로 분석과 인사이트 도출에만 사용되었으며, 실직적으로 AI 모델을 구축하고 예측 분석이나 자동화된 의사결정 과정에 활용하는 데는 한계가 있었습니다. AI 테크팀의 신설과 함께, 기존 데이터를 AI 모델로 전환하고 활용하려는 요구가 생겼습니다. 이에 따라 내부 빅데이터와 레거시 시스템을 AI 플랫폼과 원활하게 연계하여 다양한 데이터 소스를 효율적으로 활용할 수 있는 환경 구축이 필요했습니다.
3. 단기간 내 AI 개발/실험 등 시범운영 가능한 플랫폼 구축
현대글로비스는 자사의 다양한 요구와 환경에 맞는 맞춤형 AI 플랫폼을 빠르게 구축해야 하는 과제에 직면해 있었습니다. 특히, 플랫폼을 본격적으로 사용하기 전에 단기간 내에 AI 개발과 실험을 위한 시범 운영을 진행해야 했기 때문에, 시간적으로 여유가 부족한 상황이었습니다. 이와 같이, 빠른 시일 내에 시범 운영을 진행할 수 있는 현대글로비스의 맞춤형 AI 플랫폼 구축이 시급했습니다.
4. 확장 가능한 인프라 구성
기존의 내부 클라우드 시스템과 새롭게 구축된 GPU 서버를 통합하여, 확장 가능한 인프라를 구축하고자 했습니다. 특히, 향후 몇 년 내에 계획된 GPU 증설을 고려하여, 유연하게 확장하고 운영할 수 있는 환경을 구축하는 것이 필요했습니다.
5. 원활한 공유가 가능한 환경 제공
엔터프라이즈는 다수의 사용자와 여러 팀이 동시에 작업할 수 있는 협업 환경이 필수입니다. 하지만, 폐쇄망 환경에서는 정보의 자유로운 흐름보다 보안과 통제가 우선시되기 때문에, 조직 내에서도 필요한 리소스를 쉽게 공유하거나 접근하는 데 어려움이 있습니다. 이러한 환경에서도 조직 내 자유로운 공유와 협업이 가능한 환경 조성을 요청했습니다.
쿠버네티스 기반의 치타를 통한 맞춤형 AI 플랫폼 구축
현대글로비스의 AI 플랫폼 구축 사업은 폐쇄망 사용으로 인한 제약, 내/외부 시스템의 데이터 통합 및 관리 문제, 기존 클라우드 인프라 재활용 등의 다양한 제약 사항들이 있었지만, AI 통합 플랫폼 Cheetah의 도입을 통해 모두 해결될 수 있었습니다.
1. 외부와 동일한 환경 구축으로 폐쇄망 사용의 불편함 해결
현대글로비스는 폐쇄망 환경에서 AI 개발을 위해 필요한 라이브러리나 Docker 이미지를 외부에 의존하지 않고 내부적으로 모두 관리할 수 있도록 해야 했습니다. 각종 소프트웨어나 라이브러리의 버전 충돌을 방지하기 위해, 외부 환경에서 선행 테스트를 거친 후 안정성이 입증된 것들만 시스템에 적용했습니다. Cheetah는 Pypi, APT, Docker Image, Helm 등의 오픈소스 메인 저장소를 내부 사설 레포지토리로 미러링하여, 외부 환경과 동일한 환경을 폐쇄망 내에 구축했습니다. 이를 통해 버전 충돌과 의존성 문제를 해결하고, 최신 AI 도구를 안정적으로 사용할 수 있도록 지원했습니다. 이 과정에서 NEXUS 레포지토리 매니저를 활용해 Pypi 등의 레포지토리를 미러링하여, 내부 네트워크에서 쉽게 접근할 수 있게 함으로써, 폐쇄망 환경에서도 AI 개발이 원활하게 이루어질 수 있도록 했습니다.
2. 내/외부 시스템의 데이터 연계로 안정적인 머신러닝 파이프라인 구축
현대글로비스는 기존의 다양한 빅데이터 및 레거시 시스템에서 데이터를 효율적으로 통합하고 활용하는 것이 중요했습니다. Cheetah는 Hadoop, Oracle, Tibero, Mysql 등 여러 시스템에서 데이터를 안전하게 AI 플랫폼으로 가져오는 역할을 했습니다. 이를 통해, 데이터가 복잡한 절차 없이 AI 모델 개발에 사용될 수 있도록 컨테이너 환경에서 손쉽게 활용될 수 있었습니다. 데이터 수집부터 모델 훈련, 서빙까지의 반복 작업을 자동화하여 안정적인 머신러닝 파이프라인을 구축함으로써, 현대글로비스의 데이터 활용 능력을 극대화했습니다.
3. 빠르게 실 업무에 적용 가능한 플랫폼 도입
현대글로비스는 최초에 이 과제를 기획할 때, SI 방식으로 독자적인 플랫폼을 개발하려 했습니다. 그러나 Cheetah 제품을 검토한 후, 현대글로비스가 요구하는 기능들을 대부분 갖추고 있음을 확인하고, 개발 대신 제품 구매로 방향을 선회하였습니다. 이를 통해 구축 기간을 획기적으로 단축하고, 비용 또한 대폭 절감할 수 있었습니다. 더불어, 향후 제품 유지보수나 업그레이드 측면에서도 많은 이점을 제공했습니다.
Cheetah는 다양한 형태의 머신러닝 관련 빌트인 이미지를 제공하여, 현대글로비스가 내부 개발 환경을 빠르게 구축하고 테스트 시간을 크게 단축하는 데 기여했습니다. 이를 통해, 개발자들은 실제 모델 개발에 집중할 수 있는 시간을 확보할 수 있었습니다. 또한, 현대글로비스의 특정 요구에 맞춘 고객 전용 커스텀 이미지를 신속하게 구축하고, 이를 바로 사용 가능하도록 지원함으로써, 현업에 바로 적용할 수 있는 맞춤형 솔루션을 제공했습니다.
4. 유연하게 확장 가능한 인프라 구축
Cheetah는 업계 표준의 오픈소스 컨테이너 관리 툴인 쿠버네티스(Kubernetes) 기반으로, 현대글로비스의 기존 프라이빗 클라우드 환경에서 유연하게 확장 가능한 인프라를 구축했습니다. 향후 GPU 증설과 같은 하드웨어 확장이 필요할 때, 기존 시스템에 원활하게 통합될 수 있도록 설계되었습니다. 이를 통해, 필요에 따라 GPU 리소스를 신속하게 확장할 수 있으며, AI 개발 작업의 증가에 따라 유연하게 대응할 수 있는 환경을 마련했습니다. 결과적으로 현대글로비스는 향후 몇 년 간의 GPU 증설 계획을 고려하여 인프라를 효율적으로 확장할 수 있는 기반을 확보하게 되었습니다.
5. MIG 기술을 이용한 GPU 리소스의 효율적인 운영 환경 제공
하나의 GPU를 여러 개의 독립된 가상 인스턴스로 분할하는 MIG(Multi Instance GPU) 기술을 통해 멀티테넌시(Multi-tenancy) 환경을 제공하여, GPU 자원을 다수의 사용자에게 효율적으로 배분할 수 있게 하였습니다. 이로 인해 VDI(Virtual Desktop Infrastructure) 환경에서 여러 개발자가 동시에 GPU 리소스를 유연하게 활용할 수 있게 되었으며, 단일 GPU에서 여러 인스턴스를 동시에 운영함으로써 자원의 활용도를 높였습니다. 이를 통해 특정 작업에 필요한 리소스를 유연하게 할당할 수 있어 리소스 낭비를 최소화하고, 다양한 프로젝트를 병행할 수 있는 효율적인 운영 환경을 제공하였습니다. 또한, MIG 기술을 기반으로 한 멀티테넌시 환경을 통해 팀 간의 자원 공유를 원활하게 하여 조직 내에서 GPU 리소스를 보다 효과적으로 공유하고 협력하는 방식이 개선되었습니다.
성공적으로 마무리된 폐쇄망에서의 기술적인 도전
현대글로비스의 이번 프로젝트는 폐쇄망 환경의 높은 보안 수준을 유지하면서, 구축에 필요한 소프트웨어와 라이브러리를 원활하게 다운로드하고 업데이트하는 것이 매우 중요했습니다. 이번 프로젝트를 담당한 권혁 님은 “현대글로비스의 폐쇄망은 강력한 보안 체계를 유지하고 있어, 보안적인 요구사항을 충족시키면서 인프라를 설계하고 구축하는 것이 기술적으로 매우 높은 도전이었습니다”라고 당시 프로젝트의 어려움을 설명했습니다.
어떤 포트는 열어주고, 차단할지와 같이 작은 영역까지 꼼꼼하게 고려해야 했던 이 프로젝트는, 방화벽 설정부터 네트워크, 인프라의 세부적인 영역까지 설계하는 기술이 중요했습니다. 권혁 님은 “단순히 소프트웨어를 설치하는 것에 그치지 않고, VM, 네트워크, 스토리지 등 모든 요소를 종합적으로 설계하여 보안 요구사항을 만족시키면서도 유연하게 운영할 수 있는 시스템을 구축한 것이 이번 프로젝트의 핵심 성공 요인이었습니다.”라고 말했습니다.
결과적으로, 현대글로비스 프로젝트는 폐쇄망 환경에서도 강력한 보안 체계를 유지하면서, 신속하고 유연하게 확장 가능한 AI 플랫폼을 성공적으로 구축할 수 있었습니다. 이 프로젝트는 민간 기업이나 관공서 등이 보안 문제 때문에 필수적으로 갖추어야 하는 폐쇄망 환경 내에서, 보안과 확장성을 모두 충족하는 AI 개발 플랫폼을 구축한 대표적인 사례입니다. 특히, 기존에 운영 중이던 빅데이터 시스템과의 호환성, 유연하고 확장 가능한 인프라 운영, 다수의 사용자 관리 등 엔터프라이즈 환경에서 고려해야 하는 다양한 도전들을 극복한 모범 사례로, 다른 기업과 기관에서도 참조할 만한 프로젝트입니다.