그럼에도 불구하고 데이터 인프라 기업, 페블러스 입장에서 분석해봤을 때 대한민국이 AI 강국이 되는 일은 충분히 가능하다고 생각합니다. 그저 희망적인 말만이 아니라, 실제 현실로 실현 가능하다고 봅니다. 다만 몇 가지 조건이 갖추어져야 합니다. 오늘은 그 내용을 다루어볼까 합니다.
한국의 소버린 AI 생존 전략, 굳건히 자리잡으려면 어떻게 해야 할까
소버린 AI란?
소버린 AI란, 해외 AI 기술에서 벗어나 자국만의 독자적인 기술을 기반으로 구축한 AI 모델을 말합니다. AI 모델을 개발하는 과정에서 사용되는 데이터, 클라우드 등 모든 요소가 국내 기업의 독자적인 기술로 탄생한 것이죠.
"2027년까지 전 세계 국가의 35%가 소버린 AI를 갖추게 됩니다." - 가트너 보고서
과연 한국은 이 35% 안에 들어가고, 이 35% 안에서도 AI 강국이 될 수 있을까요? 한국은 미국, 중국, 프랑스 등 타 국가와 비교하면 아직 온전한 소버린 AI와는 거리가 있습니다. 2025년 이전까지는 미국과 중국이 AI 시장을 주도하고 있었고 한국은 이 두 국가가 개발한 파운데이션 모델을 사용하고 있었습니다.
💡
한국의 기업이 소버린 AI를 개발해야 하는 이유는?
그렇다면 국가와 기업이 소버린 AI를 직접 개발해야 하는 근본적인 이유는 무엇일까요? 페블러스 데이터 커뮤니케이션팀은 이를 크게 네 가지 이유로 정리해보았습니다.
1) 기업 보안, 국가 안보의 위험
현재 한국에서 개발한 AI의 90%가 미국, 중국 기반의 인프라를 활용하고 있습니다. 그런데 만약 해외 인프라를 ‘지속적으로’ 사용한다면, 부작용이 발생할 수 있습니다. 자칫하면 해외로 국가와 기업의 전략, R&D, 고객 정보 등 중요한 기밀이 유출됩니다. 경쟁력을 얻기 위해 사용했던 AI를 사용했던 것인데, 오히려 AI로 인해 경쟁력을 빼앗기게 되는 것이죠.
2) 공급망 리스크
해외의 모델, 반도체, 데이터센터, 데이터 등에 의존할 경우, 또 다른 리스크가 존재합니다. 두 가지 상황을 예로 들어보겠습니다.
미국의 반도체를 활용해 AI를 개발한다고 가정하겠습니다. 그런데 갑자기 미국이 한국에 반도체 수출 규제를 단행한다면? 개발 중인 AI 프로젝트는 순식간에 중단될 수 있습니다.
두 번째로 해외 데이터센터의 경우입니다. 해당 국가에서 ‘국가 간 데이터 이전을 제한하는 규제’를 시행한다면? 해외 데이터센터에 의존하던 기업은 운영 자체에 차질이 생깁니다.
즉 각국의 기술 보호주의가 심화되면서 국가 간 갈등이 곧 기업의 피해로 직결되는 구조입니다. 소버린 AI를 자칫하면 국가적 차원에서만 해석할 수 있는데, 기업의 입장에서도 소버린 AI 전략이 필수인 것이죠! 이처럼 향후 현실이 될 수 있는 리스크에 선제적으로 대비해야 합니다.
3) 규제 준수
빛이 있으면 그 이면에 그림자가 생기게 됩니다. AI가 급부상하면서 그 부작용도 함께 드러나고 있죠. 개인정보 침해, 정보 출처의 불투명성, 알고리즘 편향 등 다양한 부작용이 발생하고 있습니다. 이를 예방하기 위해 주요 국가들이 발 빠르게 규제를 마련하고 있습니다.
유럽: GDPR(General Data Protection Regulation, 유럽 일반 개인정보 보호법): 데이터가 어디서 어떻게 처리되는지 설명하지 못하면 매출의 최대 4%까지 벌금을 납부해야 합니다.
유럽: EU AI Act(EU Artificial Intelligence Act, 유럽연합 인공지능법): 인공지능의 개발, 시장 출시, 이용을 통합적으로 규율하는 세계 최초의 포괄적 법률입니다.
한국: 인공지능 기본법(인공지능 발전과 신뢰 기반 조성 등에 관한 기본법): 인공지능의 개발을 장려하면서도 안전·윤리·인권을 보호하기 위한 포괄적 기본법입니다.
국내외 불문하고, 여러 법률의 기조를 관통하는 핵심은 하나입니다.
AI가 어디서, 어떤 데이터로, 어떤 기준으로 만들어졌는지 증명해야 합니다.
특히 소버린 AI를 개발하고 있다면 이 부분을 투명하게 공개할 수 있어야 합니다. 해외의 데이터셋 등을 활용한 게 아닌 ‘독자적’이라는 사실 자체를 증명해야 하니까요. 데이터의 출처, 데이터 이전 경로, 모델 학습의 투명성, 책임 주체를 모두 명백히 밝혀야 하는 것이죠.
만약 해외 클라우드나 해외 API 기반 모델을 사용한다면 어떨까요? 데이터가 어느 국가의 서버에 저장되고, 어떤 경로로 처리되는지 우리가 직접 통제하기 어렵습니다. 제3자의 인프라를 거치는 만큼, 데이터 처리 과정의 전 구간을 투명하게 입증하는 데 구조적 한계가 생길 수밖에 없습니다.
4) 영어권 기반 AI의 한계
현재 초거대 AI 모델의 학습 데이터 중 90% 이상이 영어권 기반입니다. 영어권의 데이터로 학습된 AI인 것이죠.
😮
그렇기에 한국어의 뉘앙스, 한국의 문화, 언어적 맥락을 100% 이해하지 못하는 AI가 만들어집니다. 한국인끼리 공유하는 문화적 코드를 읽지 못하는 것이죠. 국내에서만 통하는 맥락은 흐려지고, 영어권의 지식과 관점만 강화됩니다.
설령 영어권의 AI 모델이 한국어 성능이 높아져도 문제입니다. 최근 글로벌 AI 모델들 중 일부는 한국어 성능까지 비약적으로 향상시키며 국내 시장을 잠식할 조짐을 보이고 있어요.
한국어를 잘하는 해외 AI가 늘어난다면, 국내 기업과 기관이 해외 모델에 의존할 가능성은 더 높아집니다. 이렇게 해외 AI 모델에 의존하게 되면 자국의 문화와 국가 인프라, 나아가 산업의 자립 기반까지 흔들릴 수 있습니다. 기술 종속이 우려되는 것이죠.
한국의 소버린 AI, 지금 어디쯤 와 있나?
한국의 소버린 AI는 현재진행형입니다. 그에 대한 구체적인 현황을 함께 살펴보겠습니다.
대한민국 정부는 '국가 AI 대전환을 위한 15개 선도 프로젝트'를 시작으로 다양한 실질적인 프로젝트를 통해 소버린 AI를 적극 지원하고 있습니다.
기업, 공공, 국민, 기반 조성의 4가지 항목으로 목표를 나누었는데요. 특히 눈에 띄는 건 기업 영역의 목표, '피지컬 AI 1등 국가'입니다.
한국은 과거부터 제조 강국으로 세계적 입지를 다져왔지만, 최근 중국과 같은 타 국가가 새로운 강자로 떠오르고 있습니다. 세계적인 입지를 단단히 구축하기 위해, 정부는 피지컬 AI가 탑재된 산업용 로봇, 휴머노이드 로봇은 물론 선박, 드론, 자동차까지. AI를 통한 제조 혁신에 본격적으로 나서고 있습니다.
이러한 목표를 뒷받침하기 위해, 과학기술정보통신부는 한국의 '국가대표 AI'를 선정하여 지원하는 독자 AI 파운데이션 모델 사업을 추진했습니다.
"오픈AI, 앤트로픽과 같은 빅테크도 처음부터 세계적으로 인정받는 조직이 아니었습니다. 국내 AI 생태계가 도전을 통해 성장할 수 있도록 정책적 지원을 이어가겠습니다." - 배경훈 과학기술정보통신부 장관
해당 사업에서 최종적으로 LG AI연구원, 업스테이지, SK텔레콤이 선정되었고, 스타트업인 모티프테크놀로지스가 추가 합류했습니다. 여기서 주목할 점이 있습니다.
👍
후보군에는 네이버클라우드처럼 이미 기술력이 탄탄한 대기업도 있었지만, 독자적인 기술력을 갖춘 스타트업도 충분히 선정될 수 있었다는 것. 소버린 AI에서 핵심은 기업의 규모가 아니라 '독자성'이라는 사실을 다시 한번 확인할 수 있습니다.
소버린 AI를 만들기 위한 3가지 필수 요건
그렇다면 어떻게 소버린 AI를 개발할 수 있을까요? 아래 3가지 기반이 갖추어져 있다면 충분히 규모가 작은 기업도 소버린 AI를 개발할 수 있습니다. 역으로 생각하면, 아래 3가지 기반을 갖추지 못한 대기업이라면 실패할 수 있습니다.
컴퓨팅 인프라: 아래 2가지를 뒷받침하는 인프라입니다. 자금을 확보해서 AI 반도체를 공급하는 기업과 협력하고, 이를 운용할 데이터센터와 전력에 대한 준비를 해야 합니다.
기술력: ‘독자적인 AI 아키텍처’를 설계하고 학습시킬 수 있는 기술력을 말합니다.
데이터: AI 모델이 학습하고 판단하는 데 필요한 핵심 원료입니다. 아무리 뛰어난 아키텍처와 인프라를 갖추더라도, 학습에 투입되는 데이터의 품질이 낮으면 AI의 성능은 그 수준을 넘지 못합니다.
이 중 데이터를 자세히 확인 해보겠습니다. 데이터는 사실 이론적으로만 보면 가장 빠르게 확보할 수 있는 자원처럼 보입니다. 현재까지 국가적, 기업적 차원에서 한국 환경에 특화된 데이터를 꾸준히 수집해왔고, 정부도 공공데이터라는 이름으로 데이터를 공개하고 있으니까요.
💡
그런데 이론과 현실은 차이가 있습니다. 그것도 상당히 다른 양상이 나타납니다. 오히려가 현 시점에서 데이터야말로 소버린 AI의 가장 큰 병목입니다. 데이터가 AI의 학습에 곧바로 활용할 수 있는 'AI-Ready' 상태가 아닌 것이죠.
또한 컴퓨팅 인프라나 모델 기술력은 막대한 자본은 물론, 기술이 발전하기까지 시간이 필요합니다.
반면 데이터의 경우 다른 2가지 자원보다는 비교적 적은 비용, 시간 안에서 개선하고, 빠르게 AI의 품질을 끌어올릴 수 있습니다.
즉 AI-Ready 수준의 양질의 데이터를 만들어 경쟁력을 확보하는 것, 이것이 가장 현실적인 한국의 소버린 AI 전략입니다.
한국이 소버린 AI로 자리잡기 위한 데이터 전략 2가지
그렇다면 이제부터는 무엇을 해야 할까요? 페블러스는 데이터 인프라 전문가로서, 위 3가지 중 ‘데이터’에 초점을 맞추어 말씀드리려 합니다. 데이터 과학자의 시각에서 ‘독자적인 데이터’를 확보하는 전략 2가지를 제안합니다.
페블러스는 국방부와 육군이 선택한 데이터 품질 관리 솔루션입니다.
국방부와 육군은 국가의 안보를 지키죠. AI 솔루션의 품질이 조금이라도 떨어지면 위험한 상황에 직면할 수 있기에, 그만큼 데이터의 품질도 까다롭게 관리되어야 합니다.
또한 이뿐만 아니라 국방기술품질원, 육군 시험평가단, 대구디지털혁신진흥원도 페블러스 데이터클리닉의 고객사입니다.
국가기관의 선택을 받은 페블러스 입장에서 ‘소버린 AI를 위한 데이터 품질 관리 노하우’를 말씀드리겠습니다.
1) 독자적인 데이터가 있어야 독자적인 AI가 만들어집니다.
‘한국’이라는 환경에 알맞은 데이터를 확보해야 합니다.
페블러스 데이터클리닉의 고객 사례 중, 소버린 데이터가 중요했던 사례를 통해 이야기해보겠습니다. 고라니 탐지 AI를 개발하면서, 양질의 고라니 합성데이터가 필요했습니다.
그런데 생성형 AI로 ‘고라니’ 이미지를 만들어보면, 결과가 영 시원치 않습니다. 왜일까요? 보통 해외 기반 생성형 AI를 많이들 활용하는데, 이 경우 학습 데이터에 고라니 이미지가 거의 없기 때문입니다. 전 세계 고라니 중 90%가 한국에 서식하고 있고, 해외에서는 개체 수가 드물기 때문입니다.
그렇다면 국내에서 수집한 고라니 사진을 활용하면 될까요? 그것도 100% 정답은 아닙니다.
실제 고라니 탐지 AI가 활용되는 환경을 생각해보세요.
AI가 고라니를 정확히 인식하려면, 단순히 고라니의 생김새만 학습해서는 부족합니다. 고라니가 출몰하는 배경도 학습해야 합니다.
고라니는 한국의 도로변, 산림 경계, 농경지 주변에 출몰합니다. 심지어 출몰하는 순간을 촬영한 데이터 자체가 부족합니다.
👍
고라니가 자주 출몰하는 한국 특유의 도로 환경, 농촌 환경, 계절별 변화, 야간 도로의 조명 조건, 가드레일과 같은 도로 시설물 등 배경까지 함께 학습해야 실제 환경에서 정확하게 작동하는 AI가 됩니다.
지금 예시로 보여드린 고라니, 그저 소버린 데이터가 필요한 하나의 작은 사례일 뿐입니다. 실제로 AI 모델이 미처 학습하지 못한 한국만의 특수한 상황은 무수히 많습니다.
국방 장비의 운용 환경, 한국형 도로 인프라, 국내 제조 공정의 특성, 한국 고유의 법률·행정 체계 등 다양하죠. 해외 데이터로는 불가능합니다. 오직 소버린 데이터로만 가능한 영역인 것이죠.
이렇게 한국 환경에 걸맞는 특수성을 데이터 차원에서 정밀하게 파악하는 것, 그것이 소버린 AI의 시작점입니다.
2) 독자적인 AI는 ‘모델’뿐 아니라 ‘데이터를 다루는 파이프라인’까지 독자적이어야 완성됩니다.
데이터는 살아있습니다. 사람은 시간이 지날수록 노화됩니다. 사고 방식이 바뀌고, 시야가 하나로 고정되어 편향적으로 생각하기도 하죠. 데이터도 마찬가지입니다. 생명체처럼 노후화되고, 변질되고, 편향이 생깁니다. 특히 AI에 학습되는 과정에서 더더욱 빠르게 변화하게 됩니다.
이러한 특성으로 인해 데이터의 품질은 단순히 한두번만 개선해서 끝나지 않습니다. 한 번 개선해서 끝이 아니라 지속적으로 관리해야 하는 것이죠. 쉽게 말해 이를 가능하게 해줄 ‘데이터 인프라’가 필요합니다.
그런데 소버린 AI에서는 데이터를 개선하는 기술을 해외 기술, 또는 국내에서 법적으로 인정받지 않은 기술을 사용한다면 어떨까요? 물론 사용 자체는 가능할 것입니다. 다만 장기적인 관점으로 생각해보아야 합니다.
💡
보호받지 못한 기술은 ‘기술적 해자’가 없습니다. 경쟁사가 쉽게 따라하거나, 특허를 통해 선점할 수 있는 것이죠. 결국 데이터 인프라를 통해 데이터셋의 품질을 높였더라도, 이후에 데이터의 경쟁력은 사라지게 됩니다.
페블러스의 해답, 데이터가 움직이는 모든 경로를 특허로 등록했습니다.
페블러스의 고객사가 지속적으로 건강한 데이터셋을 활용하실 수 있도록, 이를 지식재산권(IP)으로 보호했습니다. 데이터가 움직이는 모든 경로를 파악하고, 모든 약점을 식별할 수 있는 체계. 그리고 그 체계의 각 단계를 빠짐없이 특허로 보호했습니다.
데이터클리닉은 크게 세 단계로 작동하는데요. 각 단계별로 어떤 특허가 있는지 확인해보겠습니다.
1. 데이터 품질 진단
특허명 / 특허번호 또는 출원번호 | 특허 설명 |
|---|---|
데이터 진단에 따른 스냅샷 획득 방법 및 그러한 방법이 구현된 컴퓨팅 장치 한국 출원번호 10-2025-0019945 | 임베딩 벡터 공간에서 특정 조건을 만족하는 벡터를 자동으로 식별 및 캡쳐하여 스냅샷 정보를 생성하는 기술입니다. |
Method and Apparatus for Diagnosing Properties of Data 미국 특허번호 11,868,435 | ISO/IEC 5259 국제 표준에 부합하는 유사성, 대표성, 다양성 등의 지표를 정량적으로 산출합니다. 해당 지표에 따라 시각화 인터페이스를 제공하는 기술입니다. |
Computing Device That Performs a Method for Diagnosing Properties of Data and a System Comprising the Computing Device 미국 특허번호 12,481,720 B2 (2025.11.25 등록) / 한국 10-2022-0079508 등 기반 | 데이터를 고차원 임베딩 공간에 투영하여 '데이터 지도'를 생성하고, 밀도와 분포 분석을 통해 중복·편향·희소 영역을 시각적으로 진단할 수 있는 기술입니다. 고차원 기하학적 구조를 한눈에 볼 수 있어, 직관적으로, 세밀하게 데이터를 분석할 수 있습니다. |
2. 데이터 품질 개선
특허명 / 특허번호 또는 출원번호 | 특허 설명 |
|---|---|
가상 데이터를 생성하기 위한 방법 및 그러한 방법이 구현된 컴퓨팅 장치 한국 등록번호 10-2719240 | 사용자 쿼리 기반으로 데이터 탐색과 합성데이터 생성을 병렬 수행하는 기술입니다. 탐색과 생성이 동시에 이루어지기 때문에 처음부터 목적에 맞는 데이터만 효율적으로 생성할 수 있습니다. |
가상 데이터를 처리하기 위한 유저 인터페이스 제공 방법 및 그러한 방법이 구현된 컴퓨팅 장치 한국 등록번호 10-2665956 | 생성된 합성데이터에 대해 품질을 세밀하게 평가하고, 속성을 조정하는 인터페이스를 제공합니다. |
Method and Apparatus for Processing Data for Machine Learning Model 미국 특허번호 US 11,967,308 | 진단된 데이터 지도의 빈 곳(Hole)을 식별하고, 해당 영역에만 필요한 합성 데이터를 정밀하게 생성하여 보강하는 기술입니다. |
3. 데이터 이력 추적 및 거버넌스
특허명 / 특허번호 또는 출원번호 | 특허 설명 |
|---|---|
데이터를 거래하기 위한 가상 환경 플랫폼을 제공하는 전자 장치, 전자 장치의 동작 방법 및 전자 장치를 포함하는 시스템 한국 등록번호 10-2912944 | 데이터 거래 이력과 기여도를 블록체인에 기록하여 위변조를 방지합니다. GDPR, EU AI Act, 한국 AI 기본법 등 글로벌 규제가 요구하는 데이터 출처를 투명하게 증명하는 것이죠. |
페블러스는 여러분의 AI가 소버린 AI로 나아갈 수 있도록 데이터의 품질부터 주권까지, 독자적인 기술과 특허 기반 파이프라인으로 완성해 드립니다. 이제 데이터 고민 없이, AI 개발에 편히 집중하세요.
소버린 AI, 글로벌 AI 트렌드에 대해 더 궁금하시다면, 매주 뉴스레터로 정보를 전달드리겠습니다.
또한 협업 및 파트너십을 논의하고 싶다면 아래 3단계를 확인해주세요.
데이터클리닉 홈페이지에서 ‘문의하기’ 버튼을 눌러주세요.
그 다음 현 상황을 말씀해주세요. 간략하게 말씀해주셔도 무방합니다. 데이터 개선 전 단계에서 자세한 컨설팅을 진행하며 정확한 문제를 짚어나갈 예정입니다.
문의를 하신 후, 영업일 기준으로 2~3일 안에 회신드리겠습니다.