소규모 언어 모델, 경량 프레임워크, 특화 하드웨어를 비롯한 다양한 기술 혁신이 AI를 네트워크 엣지에 위치한 클라이언트, 서버, 디바이스로 확장하고 있다.
엣지 AI와 관련해 레드햇의 엣지 프로젝트 관리 부문 시니어 디렉터 조슈아 데이비드는 “글로벌 시장은 현재 가파른 성장 궤도에 올라 있다”라고 말했다. 실제로 엣지 AI 시장 규모는 2034년까지 1,430억 달러에 이를 것으로 예상되고 있다.
엣지 AI의 성장세는 업계 전반이 머신러닝(ML) 모델에 데이터를 학습시키는 AI 학습 중심에서 벗어나, 운영 환경에서 모델을 실제로 활용해 지식을 적용하거나 예측을 수행하는 추론 중심으로 이동하는 흐름과 맞물려 있다.
엔터프라이즈 데이터 관리·통합 기업 인포매티카의 제품 관리 부문 부사장 수밋 아그라왈은 “강력하면서도 에너지 효율적인 AI 프로세서의 발전과 사물인터넷(IoT) 기기의 확산이 이러한 흐름을 가속하고 있다. 복잡한 AI 모델을 엣지 디바이스에서 직접 실행할 수 있는 환경을 가능하게 하고 있다”라고 설명했다.
이와 관련해 모건스탠리 블로그는 AI 산업이 “새롭고, 잠재적으로 훨씬 더 큰 단계인 AI 추론으로 접어들고 있다”라고 언급하며, 이 단계의 핵심 특징으로 소비자용 애플리케이션과 기업 전반에 걸쳐 AI 모델이 광범위하게 채택된다는 점을 짚었다.
엣지 컴퓨팅은 퍼블릭 클라우드와는 다른 장점을 제공한다. 퍼블릭 클라우드는 확장성과 사용 편의성 측면에서 강점이 있지만, 추론 관점에서는 한계도 분명하다. 지연 시간이 늘어나고 데이터 프라이버시 우려가 커지며, 연산 처리와 데이터 유입·유출 과정에서 비용 부담이 증가한다는 점이 대표적이다. 반면 AI를 엣지에서 실행하면 이러한 문제 상당 부분을 해소할 수 있다. 데이비드는 “엣지 AI는 지연 시간 감소, 비용 절감, 보안과 프라이버시 강화 등 여러 핵심적인 이점을 제공한다”라고 설명했다.
아마존이 최근 일부 ML 학습 작업에 주로 사용되는 GPU 이용 요금을 15% 인상한 사례처럼, 중앙 집중형 학습을 중심으로 한 클라우드 AI 비용은 예측하기 어려운 방향으로 흘러가고 있다. IDC는 2027년까지 CIO의 80%가 AI 추론 수요를 충족하기 위해 클라우드 업체의 엣지 서비스를 활용할 것으로 전망했다.
다만 이러한 전환이 순탄하게 이뤄지지는 않을 전망이다. 실시간 성능에 대한 높은 요구, AI 스택이 차지하는 큰 시스템 자원 부담, 파편화된 엣지 생태계는 여전히 주요 과제로 남아있다.
이 글에서는 엣지 AI를 둘러싼 기술 개발 현황을 살펴보고, 엣지 환경에서 AI를 실행하기 위한 새로운 기술과 운영 방식, 그리고 AI 시대에 컴퓨팅의 미래가 어떻게 진화할지 전반적으로 짚어본다.
엣지 AI 성장을 이끄는 요인
데이비드는 “엣지 AI 확산의 가장 큰 동인은 실시간 데이터 처리에 대한 요구”라고 설명했다. 중앙화된 클라우드 기반 AI 워크로드에 의존하는 대신, 엣지에서 직접 데이터를 분석하면 데이터가 생성되는 지점에서 즉각적인 의사결정을 내릴 수 있다는 점이 핵심이라는 분석이다.
여러 전문가도 같은 의견을 내놓고 있다. 인포매티카의 아그라왈은 “엣지 AI에 대한 관심이 폭발적으로 증가하고 있다”라고 전하며, 특히 산업 현장이나 자동차 분야처럼 찰나의 판단이 중요한 환경에서는 지연 시간 감소가 가장 큰 장점으로 작용하고 있다고 진단했다.
또한 클라우드로 데이터를 보내지 않고도 ML 모델에 개인적이거나 기업 고유의 맥락 정보를 제공하려는 수요 역시 커지고 있다. 오픈소스 애플리케이션 플랫폼 제공사 템포럴 테크놀로지의 시니어 스태프 소프트웨어 엔지니어이자 AI 기술 책임자인 요한 슐라이어-스미스는 “프라이버시는 매우 강력한 동인”이라면서, 의료나 금융처럼 규제가 엄격한 산업에서는 민감한 정보를 로컬에서 처리하는 것이 규제 준수를 위해 필수적이라고 분석했다.
수세(SUSE)의 엣지 사업 부문 부사장 겸 총괄 책임자 키스 바실 역시 “엣지 AI에 대한 관심은 분명히 증가하고 있다”라고 밝혔다. 그는 제조 분야를 대표적인 사례로 꼽으며, 기업이 생산 라인을 운영하는 대형 서버부터 소형 센서에서 발생하는 데이터를 처리하는 영역까지 다양한 사용례에 엣지 AI 도입을 검토하고 있다고 설명했다.
로크웰 오토메이션에 따르면 제조 기업의 95%가 향후 5년 내에 AI/ML, 생성형 AI, 인과 기반 AI에 이미 투자했거나 투자를 계획하고 있다. 또 2024년 인텔의 CIO 보고서에서는 제조 분야 리더의 74%가 AI가 매출 성장에 기여할 잠재력이 있다고 답했다.
로컬 AI 연산의 가장 큰 효과는 비용 절감이다. 아그라왈은 “전송해야 할 데이터 양이 줄어들면서 비용과 대역폭을 크게 최적화할 수 있다”라고 설명했다.
특정 워크로드를 엣지에서 처리하는 방식은 비용 절감뿐만 아니라 에너지 소비 감소와도 밀접하게 연결된다. 2025년 1월 아카이브(Arxiv)에 발표된 논문 ‘하이브리드 엣지 클라우드의 에너지 및 비용 절감 효과 정량화’에서는 순수 클라우드 처리 방식과 비교해, 에이전트 기반 AI 워크로드에 하이브리드 엣지 클라우드를 적용할 경우 조건에 따라 최대 75%의 에너지 절감과 80%를 웃도는 비용 절감 효과를 거둘 수 있다고 분석했다.
해당 논문의 저자인 시아바시 알라무티는 “엣지 처리는 로컬 컴퓨팅의 맥락을 직접 활용해 연산 복잡도를 낮추고, 클라우드 규모에서 발생하는 막대한 에너지 수요를 피할 수 있다”라고 진단했다.
로컬 AI를 가능하게 하는 기술
엣지 AI 성장을 이끄는 요인은 분명해 보이지만, 이를 실제로 구현하기 위해서는 어떤 기술이 필요할까? 자원이 제한된 엣지 환경에서 AI 연산을 실행하려면 소규모 언어 모델, 경량 프레임워크, 최적화된 배포 방식이 결합돼야 할 가능성이 크다.
소규모 언어 모델(SLM)
지금까지 대부분의 기업은 앤트로픽의 클로드, 구글의 제미나이, 오픈AI의 GPT 모델과 같은 범용 서비스 기반의 LLM을 활용해 AI를 중앙에서 운영해 왔다. 그러나 최근 AI 모델 기술이 발전하면서 이런 구조에도 변화가 나타나고 있다.
특히 자체 배포가 가능한 SLM은 특정 사용례에서 클라우드 AI 플랫폼에 대한 의존도를 낮추고 있다. 템포럴 테크놀로지의 슐라이어-스미스는 “SLM의 성능이 빠르게 향상되고 있다”라며, 최근 기술 진전의 사례로 오픈AI의 GPT-OSS와 계층적 추론 모델을 언급했다.
최적화 전략
로컬 AI의 시스템 부담을 줄이는 것은 연산 능력과 대역폭이 제한된 엣지 디바이스 환경에서 특히 중요하다. 이에 따라 SLM을 최적화하는 기술이 엣지 AI 구현을 뒷받침하는 핵심 영역으로 떠오르고 있다.
대표적인 전략 가운데 하나는 모델 압축 기법인 양자화다. 양자화는 모델 크기와 연산 요구량을 줄이는 방식으로, 엣지 환경에 적합한 형태로 AI 모델을 경량화한다. 아그라왈은 “이러한 기법을 통해 NPU, 구글의 엣지 TPU, 애플의 뉴럴 엔진, 엔비디아 젯슨 디바이스와 같은 특화 하드웨어에서 SLM을 실행할 수 있다”라고 설명했다.
자체 완결형 패키지 역시 엣지 AI를 대규모로 운영하는 데 도움이 될 수 있다. 데이비드는 운영체제, 하드웨어 드라이버, AI 모델을 하나로 묶은 즉시 배포 가능한 베이스 이미지가 엣지 AI 상용화를 현실화하는 접근 방식이라고 설명했다.
엣지 런타임 및 프레임워크
새로운 런타임 및 프레임워크 역시 엣지 환경에서의 AI 추론을 최적화하는 데 중요한 역할을 한다. 데이비드는 경량 생성형 AI 런타임인 llama.cpp와 함께, 로컬 하드웨어에서 모델 추론을 지원하는 오픈비노(OpenVINO)와 라이트RT(LiteRT, 이전 텐서플로 라이트) 같은 프레임워크를 언급했다.
아그라왈은 “llama.cpp와 GGUF 모델 포맷 같은 프로젝트는 다양한 소비자용 디바이스에서 고성능 추론을 가능하게 하고 있다. MLC LLM과 웹LLM(WebLLM) 역시 웹 브라우저와 다양한 네이티브 플랫폼에서 AI를 직접 실행할 수 있는 가능성을 확장하고 있다”라고 말했다.
클라우드 네이티브 호환성
엣지 AI가 클라우드 네이티브 생태계 및 쿠버네티스와의 호환성을 확보하는 것 역시 중요한 과제로 떠오르고 있다. 쿠버네티스가 이미 엣지 환경으로 빠르게 확산되고 있기 때문이다. 대표적인 사례로는 ‘자체 호스팅 AI를 위한 오픈소스 표준’으로 소개되는 케이서브(KServe)가 있다. 케이서브는 쿠버네티스 환경에서 엣지 추론을 지원하는 프레임워크다.
또 다른 핵심 기술로는 클라우드 네이티브 컴퓨팅 재단(CNCF)이 운영하는 샌드박스 프로젝트 아크리(Akri)가 꼽힌다. 수세의 바실은 “아크리는 엣지 환경에서 다양한 동적 디바이스와 간헐적으로 연결되는 리프 디바이스를 쿠버네티스에서 쉽게 활용할 수 있도록 만든다”라고 설명했다. 아크리를 활용하면 IP 카메라, 센서, USB 디바이스 등 다양한 엔드포인트를 쿠버네티스 리소스로 노출할 수 있어, 해당 하드웨어에 의존하는 엣지 AI 워크로드를 보다 손쉽게 배포하고 쿠버네티스에서 모니터링할 수 있다.
개방형 표준
마지막으로 엣지 AI 확산 과정에서 개방형 산업 표준이 중요한 역할을 할 것으로 보인다. 바실은 “빠르게 확장되고 있는 엣지 AI 하드웨어와 소프트웨어 환경은 심각한 상호운용성 문제를 안고 있다”라고 설명했다. 그는 리눅스 재단이 주도하는 마고(Margo)와 같은 프로젝트가 산업용 엣지 자동화 분야에서 표준을 정립하는 데 중요한 역할을 할 것으로 내다봤다.
이와 함께 ONNX도 온디바이스 AI 추론을 위한 경쟁 프레임워크 간 상호운용성 문제 해결에 도움이 될 표준으로 주목받고 있다.
엣지 AI의 현실적 장벽
기술 자체는 이미 마련돼 있지만, 엣지 AI를 실제로 운영하는 방식은 아직 초기 단계에 머물러 있다. 개념 증명 수준에서 벗어나 엣지 AI 애플리케이션을 본격적인 운영 환경으로 옮기기까지는 여러 과제를 극복해야 한다.
아그라왈은 “가장 근본적인 한계는 엣지 디바이스가 지닌 자원 제약”이라고 지적했다. 그는 “메모리와 연산 능력이 제한적이기 때문에, 막대한 연산 자원을 요구하는 크고 복잡한 AI 모델을 배포하는 데 어려움이 따른다”라고 말했다.
자원이 제한된 하드웨어 환경에 맞게 모델 크기를 최적화하면서도, 사용자가 기대하는 고성능 상위 모델 수준의 정확도를 유지해야 한다는 점 역시 여전히 해결해야 할 과제다.
또한 엣지 AI 운영에 대한 실무 경험도 아직 충분히 축적되지 않았다. 데이비드는 “특화된 엣지 디바이스는 하드웨어 구성이 복잡하고, 대부분 즉시 사용 가능한 상태로 동작하지 않는다는 점이 주요 장애물”이라고 설명했다. 그는 최전방 엣지 환경에서 모델을 배포하고 모니터링하며 관리할 수 있는 엔드투엔드 플랫폼이 부족해, 현재로서는 복잡한 수작업 방식에 의존할 수밖에 없는 상황이라고 지적했다.
바실은 “엣지 AI의 주요 과제는 파편화된 생태계”라고 덧붙였다. 그는 “표준화되고 성숙한 클라우드 컴퓨팅 환경과 달리, 엣지 AI는 하드웨어와 소프트웨어, 통신 프로토콜 전반에 걸쳐 공통된 프레임워크가 부족하다”라고 설명했다. 이러한 산업 전반의 파편화는 디바이스별로 경쟁적인 소프트웨어와 기술을 양산하고, 그 결과 엣지 환경에서는 호환성 문제와 개별 맞춤형 해결책이 뒤따르게 된다.
마지막으로 분산된 AI 모델 네트워크를 관리하는 문제도 복잡한 운영 과제로 꼽힌다. 아그라왈은 “수많은 디바이스에 배포된 모델을 대상으로 보안 업데이트와 버전 관리, 성능 모니터링을 동시에 수행하는 것은 매우 어려운 작업”이라며 “엣지 AI를 효과적으로 확장하기 위해 기업이 반드시 해결해야 할 과제”라고 설명했다.
이러한 장벽을 극복하기 위해 전문가들은 몇 가지 실천 방안을 제시했다.
- 연결성이 낮은 환경에서의 추론과 같이 엣지 AI가 적합한 경우에 한해 도입.
- 비기술 분야 리더를 대상으로 비즈니스 가치를 지속적으로 전달.
- 전면적인 엣지 또는 클라우드 배포 대신 하이브리드 전략을 고려.
- 아키텍처 차원에서 소프트웨어 계층을 특정 하드웨어 의존성으로부터 분리.
- 엣지 환경의 제약에 최적화된 모델을 선택.
- 업데이트, 모니터링, 유지보수를 포함한 전체 모델 수명 주기를 초기 단계부터 구상.
중앙 집중형에서 분산 지능으로
엣지 AI에 대한 관심이 빠르게 높아지고 있지만, 대안형 클라우드로의 전환 흐름과 마찬가지로 전문가들은 로컬 처리가 중앙 집중형 클라우드에 대한 의존도를 의미 있게 낮추지는 않을 것으로 보고 있다. 슐라이어-스미스는 “엣지 AI가 본격적으로 주목받는 시점은 오겠지만, 도입 속도는 클라우드에 비해 뒤처질 것”이라고 설명했다.
엣지 AI는 퍼블릭 클라우드를 대체하기보다는 새로운 역량을 더해 보완하는 방향으로 발전할 가능성이 크다. 바실은 “기존 인프라를 대체하는 것이 아니라, 엣지에 AI를 배치해 더 똑똑하고 효율적이며 반응성이 높은 환경을 만드는 방식이 될 것”이라고 말했다. 이는 기존 운영체제를 사용하는 엔드포인트를 보완하거나, 온프레미스 서버 운영을 최적화하는 형태로 이어질 수 있다.
전문가들은 엣지 디바이스의 역할과 역량이 단기간 내 크게 강화될 것이라고 의견을 모았다. 아그라왈은 “하드웨어와 최적화된 모델, 배포 플랫폼이 빠르게 발전하면서 사물인터넷, 모바일 디바이스, 일상적인 애플리케이션 전반에 AI가 더욱 깊이 통합되는 모습을 보게 될 것”이라고 전망했다.
이어 그는 “앞으로 엣지 AI는 빠른 성장을 앞두고 있으며, 분산되고 사용자 중심적인 지능으로의 근본적인 전환을 이끌 것”이라고 내다봤다.
[email protected]
뉴스레터 구독하기


