Data Greenhouse
logo
|
Blog
    데이터 품질 진단하기
    데이터클리닉 고객사례

    제조 AI 사례 심층 분석ㅣ시장에서 퇴출되지 않는 기업의 조건

    실제 대기업 제조 AI 사례로 바라보는 현실적인 문제 5가지, 합성데이터로 연간 5억 원을 절감할 수 있는 해결책을 공개합니다.
    Pebbly's avatar
    Pebbly
    Apr 15, 2026
    제조 AI 사례 심층 분석ㅣ시장에서 퇴출되지 않는 기업의 조건
    Contents
    시장에서 퇴출되기 전, 우리 기업도 제조 AI 사례의 주인공이 되어야 합니다.  제조 AI를 뒷받침해주는 합성데이터 생성 전략의 변화과거의 제조 AI, 그리고 현장에서의 한계향후 제조 AI가 발전해야 할 방향1. 모 대기업의 재활용 AI 사례 속 3가지 문제점, 해결 방안1) 같은 플라스틱 안에서도 분류해야 할 재질이 다양합니다. 2) 투명하거나 반사되는 경우, AI가 인식하지 못합니다. 3) 조금이라도 형태가 변형되면, AI는 처음 보는 물체로 인식합니다.  4) 고객사를 위한 페블러스의 또다른 아이디어 제안건강한 데이터가 적용된 제조 AI 사례, 도입 효과는 어떨까?2. 국가 산업 폐기물 이미지 100만 장, 데이터클리닉 분석 결과는?1) 특정 재질만 인식하는 AI가 만들어질 우려가 있습니다. 2) 사람도 구분하기 힘든 재질, AI가 명확하게 구분할 수 있도록 해야 합니다. 시장에서 퇴출되기 전, 우리 기업도 제조 AI 사례의 주인공이 되어야 합니다.  제조 AI를 뒷받침해주는 합성데이터 생성 전략의 변화과거의 제조 AI, 그리고 현장에서의 한계향후 제조 AI가 발전해야 할 방향1. 모 대기업의 재활용 AI 사례 속 3가지 문제점, 해결 방안1) 같은 플라스틱 안에서도 분류해야 할 재질이 다양합니다. 2) 투명하거나 반사되는 경우, AI가 인식하지 못합니다. 3) 조금이라도 형태가 변형되면, AI는 처음 보는 물체로 인식합니다.  4) 고객사를 위한 페블러스의 또다른 아이디어 제안건강한 데이터가 적용된 제조 AI 사례, 도입 효과는 어떨까?2. 국가 산업 폐기물 이미지 100만 장, 데이터클리닉 분석 결과는?1) 특정 재질만 인식하는 AI가 만들어질 우려가 있습니다. 2) 사람도 구분하기 힘든 재질, AI가 명확하게 구분할 수 있도록 해야 합니다. 

    시장에서 퇴출되기 전, 우리 기업도 제조 AI 사례의 주인공이 되어야 합니다.  

    ‘한국’하면 '제조 강국’이죠. 스마트폰, 반도체 등 첨단 분야에서 출하량 기준 세계 1위를 차지할 정도로, 한국 제조 기업들이 성장할 수 있었던 비결은 무엇일까요? 해외의 높은 기술력을 빠르게 흡수하고, 높은 품질의 제품을 더욱 빠르게 출시하는 방식 덕분이었습니다. 이른바 기술력, 생산성 모두 향상시킨 것입니다. 

    그러나 페블러스는 이 타이틀이 영원하리라는 보장은 없다고 생각합니다. 이미 타국의 기술력, 생산성 발전으로 인해 한국의 제조업은 서서히 위기에 처하고 있습니다. 실제로 제조로 급부상하는 중국과 비교해보겠습니다. 과거 중국은 ‘저렴한 가격, 낮은 품질’의 제품을 제조한다는 인식이 있었으나 현 시점에서는 기술력까지 발전하고 있습니다. 

    • 기술력: 세계 최고 권위의 전기전자공학자협회(IEEE) 국제전자소재학회(IEDM)에서 중국과학원이 차세대 메모리 기술 ‘3차원 D램’ 관련 논문을 발표했습니다. 전 세계의 메모리 기술을 선도한다고 자부해온 한국 반도체 업계에서 긴장감을 주는 소식이었어요.

    • 생산성: 중국 기업들의 품질 높은 저가 제품을 판매하며, 국내 기업들의 경쟁력이 사라질 것이 우려되고 있습니다. 대한상공회의소가 2000여 개 이상의 국내 제조 기업을 대상으로 조사한 결과, 전체 기업 중 27.6%가 중국제품의 저가 수출이 '실제 매출·수주 등에 영향이 있다'고 답했어요. '현재까지는 영향 없으나 향후 피해 가능성이 있다'고 답한 기업은 42.1%에 해당했습니다. 그 중 수출 비중이 높은 기업들 중에서는 37.6%가 ‘실제 매출· 수주에 영향이 있다’고 답변했습니다. 

    중국 제품의 저가 수출에 따른 경영 실적의 영향 (출처: 대한상공회의소)
    중국 제품의 저가 수출에 따른 경영 실적의 영향 (출처: 대한상공회의소)

    한국 제조 산업이 위기를 타개하려면, 새로운 방법을 찾아야 합니다. 그 방법이 제조 AI에 있습니다. 

    “제조를 잘 하는 기업을 넘어, 제조 AI를 잘 하는 기업으로 변화해야 합니다.”

    실제로 SK그룹 최태원 회장도 이렇게 예측했습니다. 

    “AI로 다시 제조업을 일으키지 못하면 향후 10년 후면 상당 부분이 시장에서 퇴출당할 것이다.” - SK그룹 최태원 회장


    제조 AI를 뒷받침해주는 합성데이터 생성 전략의 변화

    그러나 AI라고 무조건 정답은 아닙니다. 그 중에서도 일 잘하는 AI, 일을 못하는 AI로 나누어지니까요. 

    이 중 전자가 되려면, 제조 AI를 뒷받침해주는 데이터의 품질을 높여야 합니다. 그리고 그 중심에는 ‘합성 데이터’가 있습니다. 제조 AI 관점에서 합성데이터 전략이 어떻게 변화해야 하는지, 데이터 인프라 전문가 입장에서 말씀드리겠습니다. 

    과거의 제조 AI, 그리고 현장에서의 한계

    • 과거: 매우 단순했습니다. 사진을 보고 "이건 PET병이다, 아니다"를 판단하는 것이 전부였죠. 이 물체가 변형되지 않고, 오롯이 존재한다는 걸 전제로 하는 것입니다.

    • 현재의 한계: 제조 현장에서 부품과 제품은 공정을 거치며 형태가 바뀌기도 합니다. 또한 멀쩡한 부품이 찌그러지고, 이물질이 묻고, 다른 부품과 겹치기도 하죠. AI 눈에는 아예 다른 물체, 또는 오류로만 보이게 됩니다. 정제된 학습 데이터로만 훈련한 AI에게 실제 공정의 복잡한 환경을 들이밀었기 때문에, AI의 성능은 오히려 떨어집니다.

    향후 제조 AI가 발전해야 할 방향

    • 뉴로-심볼릭을 통해, ‘속성’과 ‘맥락’을 함께 판단해야 합니다. 예전에는 객체의 속성만을 개별적으로 판단했다면, 지금은 장면 전체의 맥락과 객체 간 관계를 함께 이해하는 것입니다.

    • 속성만 볼 때는 "투명하고 변형된 A 부품"인데, 문맥까지 보면 "투명하고 변형된 A 부품인데, B 부품과 겹쳐있고 반사광이 경계를 가리고 있다"까지 추론할 수 있습니다.

    • 제조 AI는 단순히 외형적 형태보다 재질, 광학적 반사·흡수, 오염·변형 상태 같은 내면의 속성 정보까지 중심으로 판단하는 방향으로 발전해야 해요.

    • 또한 단일 RGB 카메라에 의존하지 않고, NIR, 하이퍼스펙트럴, X-ray 등 멀티센서를 융합한 멀티모달 접근이 필요합니다. 실제 공정 환경의 복잡성을 반영한 데이터셋을 함께 활용하는 것이죠. 


    1. 모 대기업의 재활용 AI 사례 속 3가지 문제점, 해결 방안

    페블러스의 실제 모 대기업의 PoC 사례를 소개해드리려 합니다. 지자체 자원재활용 AI를 위한 데이터의 품질을 향상시킨 사례이며, 폐플라스틱을 중점적으로 개선했습니다. 페블러스는 이 사례 이후에도 제조 AI에 대한 수차례 정부 과제를 수행하고, 자체적으로 연구를 진행해왔습니다.

    • AI 도입 전 문제점: 기존의 자원재활용 현장은 100% 수작업으로 운영됐습니다. 그러나 코로나 당시 노동자들이 격리되면서 작업 자체가 불가능해졌고, AI 자동화의 필요성이 절실해졌습니다.

    • AI 도입 후 문제점: 그렇게 실제로 AI를 현장에 사용해보았지만 불편한 점이 나타났습니다. 기존 AI는 야외에서 폐기물을 식별하는 수준에 머물러 있었고, 실제 선별장의 복잡한 환경은 전혀 반영되지 않았던 것입니다. 

    그렇게 해당 기업은 데이터 종합병원, 데이터클리닉을 찾아와 문제를 해결하게 되었습니다. 

    페블러스가 생성한 폐플라스틱 합성데이터
    페블러스가 생성한 폐플라스틱 합성데이터

    1) 같은 플라스틱 안에서도 분류해야 할 재질이 다양합니다. 

    특히 한 공장에서 다품종의 제품을 생산하는 기업이라면 이 부분을 주목해주셨으면 합니다. 

    재질

    실생활 예시

    PET

    생수병, 음료수병

    HDPE

    샴푸통, 세제통

    ECAL

    우유팩, 주스팩 (종이+알루미늄+플라스틱 복합)

    PET 오일

    식용유 병

    혼합 연질 플라스틱

    비닐봉지, 과자 봉지

    혼합 경질 플라스틱

    플라스틱 뚜껑, 장난감

    판지

    택배 상자, 종이 박스

    금속

    캔, 알루미늄

    이번 사례를 예로 들면, 재질이 총 8가지로 나누어지고 있었습니다. 여기에 제품 특성에 따라 재질뿐만 아니라 색상, 표면 상태까지 조금씩 달라집니다. 투명한지 흰색인지 검정인지, 도장이 있는지 없는지 오염됐는지까지 다양합니다. 

    페블러스가 메트리얼 적용 자동화로 생성한 폐플라스틱 합성데이터
    페블러스가 메트리얼 적용 자동화로 생성한 폐플라스틱 합성데이터

    💻

    페블러스에서 제조 AI 사례를 분석해봤을 때, 많은 문제들이 여기에서부터 시작됩니다. 이 조건들이 복합적으로 조합되면 경우의 수가 폭발적으로 늘어납니다. 심지어 기업에 따라 경우의 수가 수천 가지로 늘어나기도 합니다.

    • 그런데 실제 데이터에서는 이 모든 조합이 고르게 존재하지 않습니다.  특정 조합의 데이터는 현저히 부족한 것입니다. 실제로 수집하려면 수개월을 기다려야 합니다.

    • 이때 제조 AI는 편향성에 빠집니다. 데이터가 많은 조합은 빠르게 알아보지만, 희귀한 조합 앞에서는 명확하게 구분해내지 못하고 오류를 발생시킵니다.

    • 게다가 주스팩처럼, 복합 재질을 가진 쓰레기도 있습니다. 만약 겉부분은 PE인데 안쪽은 다른 재질이라면 어떨까요? 사실 이건 외관만으로 구분이 불가능하죠. 

    해결책: 희귀 케이스 의도적 대량 생성, 복합 재질 정보 내장 생성

    데이터클리닉은 재질, 색상, 오염 상태를 설정값으로 조절해 원하는 조합을 의도적으로 대량 생성할 수 있습니다. 현실에서 100장 모으기도 어려운 조합을 수천 장 확보할 수 있는 것입니다. AI가 특정 조합만 유독 못 알아보는 성능 불균형 문제를 해소합니다.

    또한 복합 재질 물체의 경우, 데이터클리닉은 해당 물체에 대한 합성데이터를 생성할 때 복합 재질에 대한 정보를 처음부터 내장된 상태로 생성합니다. 그러면 완성된 이미지에는 이미 "이 물체의 겉은 PE, 안은 복합재"라는 정보가 자동으로 붙어 있습니다. 

    2) 투명하거나 반사되는 경우, AI가 인식하지 못합니다. 

    여러 재질 중에서 일부는 투명하거나 반사가 되어 AI가 명확하게 인식하지 못했습니다. 

    • 투명 PET 병, 투명 비닐: 재활용 현장에서 흔하게 등장하는 쓰레기입니다. 그런데 이런 상황이 꽤나 흔합니다. 투명 페트병 위에 투명 비닐이 겹쳐져 있는 것이죠. AI는 이런 경우 하나의 물체처럼 인식하거나, 아예 쓰레기가 아닌 배경으로 인식하는 문제가 있었습니다.

    • 금속 캔: 재질 특성 상 표면이 일부 반짝이고, 주변 환경이 그대로 반사됩니다. AI는 이 반사광 때문에 경계를 제대로 잡지 못하는 문제가 있었어요.

    • 검은 플라스틱(카본블랙): 검은 플라스틱은 빛을 거의 흡수해버립니다. 일반 카메라 센서는 빛의 반사를 통해 물체를 인식하는데, 반사되는 빛이 없거나 미미하면 센서가 물체 자체를 감지하지 못하는 문제가 있었죠. 

    페블러스가 형태 변형 시뮬레이션을 적용하여 생성한 폐플라스틱 합성데이터
    페블러스가 형태 변형 시뮬레이션을 적용하여 생성한 폐플라스틱 합성데이터

    해결책: 재질 및 광택의 정밀 구현 (PBR)

    “그러면 이런 경우는 어쩔 수 없이 수동으로 분류해야 하는 건가?” 

    이렇게 생각하실 수도 있지만, 그렇지 않습니다. 이 부분도 합성데이터를 보강하는 방향으로 해결하면 노동력을 절감할 수 있습니다.  

    • 투명한 생수병부터 불투명한 세제 용기까지, 반사광과 질감을 물리 기반 렌더링(PBR, Physically Based Rendering)으로 구현할 수 있습니다. PBR이란 빛이 실제 물리 법칙대로 반사, 굴절, 흡수되도록 컴퓨터로 계산하는 기술입니다. 영화 CG에서도 쓰이는 방식이죠.

    • 또다른 해결책으로 NIR(근적외선) + 하이퍼스펙트럴 + X-ray를 함께 써서 재질의 화학적 성분으로 구분하는 방식도 있습니다. 겉보기엔 똑같이 투명한 PET와 PS를 화학 성분으로 구별하는 것입니다.

    • 다만 카본블랙은 빛을 완전히 흡수해 일반 센서로 감지 불가하기에, 기존보다 정밀한 센서(MIR, 라만 분광법)로 변경하고 해당 센서에 맞춘 합성데이터를 생성해야만 해결 가능합니다. 

    3) 조금이라도 형태가 변형되면, AI는 처음 보는 물체로 인식합니다.  

    “이게 뭐야?”

    쓰레기는 버려지는 과정에서 찌그러지고, 찢어지고, 서로 얽혀 있습니다. 납작하게 찌그러진 PET병을 보고 AI는 혼란을 겪습니다. 사람 눈에는 모두 페트병으로 보이겠지만, AI의 눈에는 처음 보는 물체입니다. 

    용기의 다양한 형태를 반영하여 생성한 폐플라스틱 합성데이터
    용기의 다양한 형태를 반영하여 생성한 폐플라스틱 합성데이터
    페블러스의 찌그러진 폐플라스틱 합성데이터
    페블러스의 찌그러진 폐플라스틱 합성데이터

    👁️‍🗨️

    이때 자칫하면 AI가 구겨진 모습, 오염된 모습을 ‘오류’로 오판할 수 있습니다. 그러나 이 또한 쓰레기이기 때문에, 이를 엄연한 특징으로 인식시킬 수 있도록 학습시켜야 합니다.

    🤖

    또한 현장에서 움직이는 AI, 이른바 피지컬 AI가 탑재된 로봇이 현장에서 운용된다면 어떨까요? 멀쩡한 페트병과 찌그러진 페트병, 로봇 입장에서는 다른 파지 전략이 필요합니다. 파지란 로봇이 물체를 움켜쥐는 것을 말합니다. 해당 물체를 인식은 해도, 그 다음 단계로 잡지 못하는 것도 문제입니다.

    해결책: 무한한 형태 변형 시뮬레이션

    찌그러진 플라스틱을 하나씩 모으고, 찍고, 라벨링하는 것은 어려운 일입니다. 페블러스는 데이터 품질 관리 솔루션, 데이터클리닉을 통해 가상 공간에서 클릭 몇 번으로 구겨지고, 휘어지고, 찢어진 상태를 무한히 생성했습니다. 그 로봇은 어떤 형태로 변형된 물체도 놓치지 않고 인식할 수 있게 됩니다.

    이 해결책의 배경도 말씀드리자면, 형태 변형 문제를 풀기 위해 연구되고 있는 여러 기술들을 활용했습니다. 

    • 가우시안 스플래팅 / 확산 모델: 변형된 물체의 원래 형태를 3D로 복원합니다. 

    • UOIS: 한 번도 본 적 없는 물체도 개별로 분리해낼 수 있는 기술입니다. 

    • Amodal Segmentation: 재활용 작업 현장에서 쓰레기가 다른 물체에 의해 일부가 가려질 수도 있습니다. 이렇게 가려진 부분까지 추론해서 전체 형태를 파악할 수 있는 기술입니다.


    4) 고객사를 위한 페블러스의 또다른 아이디어 제안

    페블러스는 ‘데이터 인프라 전문 그룹’입니다. 단일적인 ‘데이터’만 보는 게 아니라, 이를 아우르는 인프라, 운영 방법까지 고민하는 것입니다. 

    해당 사례 속 현장은 AI 자동화 100%가 아니라, 작업자와 AI가 함께 협업하는 환경이었습니다. AI와 사람의 업무를 나누어 사람의 업무량 자체가 줄어들 수 있습니다. 

    그런데 여기에서 한층 더 나아가서, 사람이 수행해야 할 업무를 이전보다 효율적으로 AI 시스템으로 도움을 준다면?

    효율성은 더욱 높아집니다. 이러한 맥락으로 제안드린 아이디어가 ‘프로젝터 협업 시스템’입니다. 해당 아이디어는 고객사로부터 수상까지 받은 아이디어입니다.

    • 컴퓨터 비전과 프로젝터를 함께 설치해, AI가 감지한 주요 물체의 위치를 컨베이어 벨트 위에 빛으로 직접 표시합니다.

    • 작업자가 모든 물체를 일일이 확인하는 대신, AI가 "이것만 보세요."라고 알려주는 방식입니다.

    • 사람이 집중력을 아끼면서 선별 정확도를 높이는, 사람과 AI의 새로운 협업 구조인 것입니다. 


    건강한 데이터가 적용된 제조 AI 사례, 도입 효과는 어떨까?

    위 재활용 AI를 기업에 도입한 효과, 어떻게 나타났을까요?

    1. 인식 정확도 향상

    쓰레기의 오염률이 15~25%에서 5%로 줄어들었습니다. 즉 찌그러지고 오염된 폐기물도 정확히 인식하게 되어, 재활용이 가능한데 버려지는 쓰레기들이 줄어들었다는 뜻입니다. 광학적으로 까다로운 재질도 학습했기 때문에 오인식이 줄어들고, 선별의 정확도가 높아집니다.

    2. 파지 성공률 극대화

    기존에는 로봇이 찌그러진 PET병을 보고 어디를 잡아야 할지 판단하지 못해 헛발질이 나오고 라인이 멈추는 현상이 나타났습니다. 형태와 질감을 학습한 AI는 최적의 파지 방법을 즉시 판단해 공정 속도를 높일 수 있어요.

    3. 데이터 구축 시간·비용 80% 절감

    현장에서 수개월간 직접 촬영하고 하나씩 라벨링할 필요가 없습니다. 데이터 품질 관리 솔루션, 데이터클리닉을 통해 가상 환경에서 생성과 자동 라벨링을 동시에 처리해 단기간에 고순도의 데이터를 확보할 수 있어요.  

    보안으로 인해 해당 사례의 실제 수치를 공개하기는 어렵지만, 업계 레퍼런스를 기반으로 한 보수적 시나리오를 예시로 들겠습니다. 아래 내용을 모두 합산하면 연간 약 5억 원을 절감하는 효과가 나타납니다. 

    💸

    월 처리량 500톤 규모의 중소 선별장을 기준으로 계산해보겠습니다. 합성데이터로 인해 오염률을 20%에서 5%로 낮추는 것만으로 매월 75톤의 폐기물이 매립, 소각 대신 재활용으로 전환됩니다. 톤당 처리비 30만 원 기준으로 하면, 연간 약 2억 7천만 원의 처리 비용이 절감되는 것이죠.

    👥

    AI 도입으로 3교대 선별 인력 30명 중 10명을 감축한다면 어떨까요? 인건비만 연간 2억 4천만 원이 추가로 절감됩니다.

    4. 지속 가능한 운영

    인력에 의존하던 위험한 선별 작업을 로봇이 대체합니다. 악취, 오염물질 노출과 산업재해 위험이 사라집니다. 또한 3교대로 운영하던 현장을 24시간 365일 무중단 가동으로 전환됩니다.

    5. ESG 성과 가시화

    또한 환경(Environment), 사회(Social), 지배구조(Governance), ESG가 기업 평가의 핵심 지표라면 더욱 도움이 됩니다. 

    • 과거: 기존에는 ‘우리 재활용 잘 합니다.’라고 말해도 증명할 숫자가 없었어요.

    • 현재: 데이터 기반으로 운영하면 재활용률, 탄소 절감량 등을 수치로 제시할 수 있어 투자자와 규제기관에 순환경제 기여도를 객관적으로 증명할 수 있는 것이죠!

      재활용 AI를 위한 데이터 품질 진단 리포트 보러가기

    2. 국가 산업 폐기물 이미지 100만 장, 데이터클리닉 분석 결과는?

    이어서 AI Hub를 통해 구축 및 배포된 데이터를 분석해보려 합니다. 분석한 데이터셋은 국내 최대 규모의 산업 폐기물 이미지 데이터셋입니다. 공장·산업시설에서 발생하는 72종의 폐기물을 실제 현장에서 촬영한 고해상도 이미지 100만 장으로 구성되어 있어요.

    100만 장이라는 어마어마한 규모, 그러나 데이터의 내면을 분석해보면 의외의 결과가 나타납니다. 페블러스의 데이터 품질 관리 솔루션, 데이터클리닉으로 이 데이터셋을 직접 분석했습니다. 

    산업 폐기물 이미지 데이터셋 콜라주 - 금속류, 폐섬유, 유리도자기류, 합성수지 등 72종의 다양한 폐기물
    산업 폐기물 이미지 데이터셋 콜라주 - 금속류, 폐섬유, 유리도자기류, 합성수지 등 72종의 다양한 폐기물

    1) 특정 재질만 인식하는 AI가 만들어질 우려가 있습니다. 

    이 데이터셋의 가장 심각한 문제는 클래스 불균형입니다. 평균 클래스는 11,257장인데, 사실 이는 평균일 뿐 그 안에서 차이는 뚜렷합니다. 실제로 합성수지-비닐류의 이미지는 무려 79,560장인 반면, 가장 적은 클래스는 단 20장에 불과합니다. 같은 데이터셋 안에서 최대 3,978배나 차이가 나는 것입니다.

    산업 폐기물 이미지 데이터셋 - 최대 클리스, 평균 클래스, 최소 클래스 비교 그래프
    산업 폐기물 이미지 데이터셋 - 최대 클리스, 평균 클래스, 최소 클래스 비교 그래프

    지나친 데이터 불균형은 편향된 AI를 만듭니다. 데이터가 많은 클래스를 편향적으로 학습합니다. 즉 79,560장의 합성수지 비닐류는 정확하게 알아보지만, 나머지 20장짜리 클래스는 학습이 되지 않아 실제 현장에서 그 쓰레기가 나타나면 AI는 오분류하거나 아예 인식하지 못합니다.

    전체 100만 장의 데이터, 그러나 알고 보면 중요한 것은 전체 데이터의 수가 아니라 클래스별 숫자입니다. 규모보다 균형입니다.

    해결책: 소수 클래스를 보강하고, 다수 클래스는 정리해야 합니다. 

    이런 상황에서는 두 가지 해결 방향을 제안드립니다. 

    1. 합성데이터 생성으로 소수 클래스 집중 보강

    • 소수 클래스가 최소한 인식될 수 있을 정도로는 그 수를 채워 넣어야 합니다. 데이터클리닉에서는 해당 케이스에서 20장짜리 클래스를 최소 5,000장 수준까지, 평균의 50% 이상은 끌어올리는 것이 적합하다고 생각합니다. 클래스당 5천장이면 경험상 데이터의 다양성이 확보되는 적절한 숫자였습니다.

    • 물론 이 기준은 케이스마다 조금씩 다르기에, 특정 사례에서는 5천 장보다 더 많거나 적은 양이 필요할 수도 있습니다.

    1. 데이터 경량화로 다수 클래스 정리

    • 79,560장의 이미지 중 중복되거나 유사한 이미지를 줄입니다. 데이터를 대폭 경량화하여 클래스 간의 균형을 맞추는 것이죠! 결과적으로 데이터 총량은 줄어들지만, AI가 모든 클래스를 고르게 학습할 수 있는 구조가 만들어집니다.

    2) 사람도 구분하기 힘든 재질, AI가 명확하게 구분할 수 있도록 해야 합니다. 

    여러분, 잠깐 멈추셔서 한 가지 문제를 맞추어 보세요.

    아래 두 가지 물체, 둘의 재질은 각각 어떤 재질인 것 같으세요?

    유리도자기류 - 기타
    유리도자기류 - 창유리


    두 번째 사진은 분명 유리로 보이는데, 첫 번째 사진은 어떤 재질인지 감이 잡히지 않으시죠? 정답을 공개합니다.

    둘다 유리도자기류라는 같은 대분류에 속합니다. 각각 유리도자기류-기타, 유리도자기류-창유리로 분류됩니다.

    💥

    분명히 똑같은 재질이지만 사람이 봐도 구분하기 어려울 정도로 형태가 극단적으로 다르죠. AI도 마찬가지입니다. 해당 이미지로 학습한 제조 AI는 두 이미지를 보고 완전히 다른 재질로 인식할 수 있다는 것입니다.

    같은 재질끼리 같은 곳으로 보내는 것, 분리수거 AI의 목표입니다. 제조 AI에서도 익숙한 규칙이기도 합니다. 그런데 AI가 이 역할을 수행하지 못하고 판단력이 흐려질 수 있어요. 

    해결책: 클래스 레이블을 시각적 특성 기준으로 재설계해야 합니다. 

    사람도 눈으로 봤을 때 구분하기 어려운데, 과연 AI가 구분할 수 있을까요? 충분히 가능합니다. 

    이렇게 극단적으로 다른 이미지가 있다는 것 자체는 사실 좋은 신호입니다. 무조건 비슷한 재질이면 비슷한 이미지만 있는 게 아니라, 다양한 이미지가 있어야만 AI의 지식이 늘어납니다.  

    다만 이 글을 읽는 분들이 퀴즈를 맞추면서 헷갈리셨던 것처럼, AI도 혼란에 빠질 수도 있겠죠. 그래서 각 이미지마다 세부 클래스 라벨을 따로 붙여줘야 합니다. 각 도메인 전문가의 지식을 토대로, 이미지의 라벨을 붙여주는 것이죠. 

    100만 장의 산업 폐기물 데이터에 대한 품질 진단 리포트 보러가기

    제조 AI를 준비하지 않은 기업, 준비한 기업. 당장 5년, 10년만 지나도 그 격차는 벌어질 것입니다.

    이러한 위기를 직감하고 많은 기업들이 제조 AI를 도입하려 하지만, 데이터라는 벽을 넘지 못하고 있습니다. 

    페블러스가 현대자동차, 삼성E&A, LG전자 등 대기업과 협업하며 느낀 점이 있습니다. 좋은 제조 AI는 좋은 데이터에서 나온다는 사실입니다. 제조 AI에게 좋은 데이터란, 현장의 복잡함을 그대로 구현한 데이터입니다. 

    또한 지난 3월 DISS(Data Insight & Security Summit) 2026, 페블러스 이주행 대표님이 ‘Physical AI 시대의 데이터 병목을 해결하는 Agentic Data Clinic 솔루션’을 주제로 페블러스의 노하우, 경험담을 솔직히 풀어나갔습니다. 

    키노트 발표 기업 14곳 중 페블러스의 솔루션이 ‘도입하고 싶은 솔루션 1위’, ‘상담 원하는 솔루션 1위’를 기록한 것도, 이 문제를 현장에서 가장 가깝게 풀어온 경험 덕분이라고 생각합니다.

    DISS 2026, 페블러스 데이터클리닉이 '도입하고 싶은 솔루션 1위', '상담 원하는 솔루션 1위'로 선정되었습니다.

    귀사의 제조 현장에서 기술력과 생산성을 모두 높이는 제조 AI가 될 수 있도록, 이번 제조 AI 사례처럼 기업 맞춤형 해결책을 제안해드리겠습니다.

    본 기사는 페블러스의 기획 하에 AI를 보조적으로 활용하여 작성되었으며, 페블러스의 엄밀한 감수를 거쳐 출간되었습니다.



    시장에서 퇴출되기 전, 우리 기업도 제조 AI 사례의 주인공이 되어야 합니다.  

    ‘한국’하면 '제조 강국’이죠. 스마트폰, 반도체 등 첨단 분야에서 출하량 기준 세계 1위를 차지할 정도로, 한국 제조 기업들이 성장할 수 있었던 비결은 무엇일까요? 해외의 높은 기술력을 빠르게 흡수하고, 높은 품질의 제품을 더욱 빠르게 출시하는 방식 덕분이었습니다. 이른바 기술력, 생산성 모두 향상시킨 것입니다. 

    그러나 페블러스는 이 타이틀이 영원하리라는 보장은 없다고 생각합니다. 이미 타국의 기술력, 생산성 발전으로 인해 한국의 제조업은 서서히 위기에 처하고 있습니다. 실제로 제조로 급부상하는 중국과 비교해보겠습니다. 과거 중국은 ‘저렴한 가격, 낮은 품질’의 제품을 제조한다는 인식이 있었으나 현 시점에서는 기술력까지 발전하고 있습니다. 

    • 기술력: 세계 최고 권위의 전기전자공학자협회(IEEE) 국제전자소재학회(IEDM)에서 중국과학원이 차세대 메모리 기술 ‘3차원 D램’ 관련 논문을 발표했습니다. 전 세계의 메모리 기술을 선도한다고 자부해온 한국 반도체 업계에서 긴장감을 주는 소식이었어요.

    • 생산성: 중국 기업들의 품질 높은 저가 제품을 판매하며, 국내 기업들의 경쟁력이 사라질 것이 우려되고 있습니다. 대한상공회의소가 2000여 개 이상의 국내 제조 기업을 대상으로 조사한 결과, 전체 기업 중 27.6%가 중국제품의 저가 수출이 '실제 매출·수주 등에 영향이 있다'고 답했어요. '현재까지는 영향 없으나 향후 피해 가능성이 있다'고 답한 기업은 42.1%에 해당했습니다. 그 중 수출 비중이 높은 기업들 중에서는 37.6%가 ‘실제 매출· 수주에 영향이 있다’고 답변했습니다. 

    중국 제품의 저가 수출에 따른 경영 실적의 영향 (출처: 대한상공회의소)
    중국 제품의 저가 수출에 따른 경영 실적의 영향 (출처: 대한상공회의소)

    한국 제조 산업이 위기를 타개하려면, 새로운 방법을 찾아야 합니다. 그 방법이 제조 AI에 있습니다. 

    “제조를 잘 하는 기업을 넘어, 제조 AI를 잘 하는 기업으로 변화해야 합니다.”

    실제로 SK그룹 최태원 회장도 이렇게 예측했습니다. 

    “AI로 다시 제조업을 일으키지 못하면 향후 10년 후면 상당 부분이 시장에서 퇴출당할 것이다.” - SK그룹 최태원 회장


    제조 AI를 뒷받침해주는 합성데이터 생성 전략의 변화

    그러나 AI라고 무조건 정답은 아닙니다. 그 중에서도 일 잘하는 AI, 일을 못하는 AI로 나누어지니까요. 

    이 중 전자가 되려면, 제조 AI를 뒷받침해주는 데이터의 품질을 높여야 합니다. 그리고 그 중심에는 ‘합성 데이터’가 있습니다. 제조 AI 관점에서 합성데이터 전략이 어떻게 변화해야 하는지, 데이터 인프라 전문가 입장에서 말씀드리겠습니다. 

    과거의 제조 AI, 그리고 현장에서의 한계

    • 과거: 매우 단순했습니다. 사진을 보고 "이건 PET병이다, 아니다"를 판단하는 것이 전부였죠. 이 물체가 변형되지 않고, 오롯이 존재한다는 걸 전제로 하는 것입니다.

    • 현재의 한계: 제조 현장에서 부품과 제품은 공정을 거치며 형태가 바뀌기도 합니다. 또한 멀쩡한 부품이 찌그러지고, 이물질이 묻고, 다른 부품과 겹치기도 하죠. AI 눈에는 아예 다른 물체, 또는 오류로만 보이게 됩니다. 정제된 학습 데이터로만 훈련한 AI에게 실제 공정의 복잡한 환경을 들이밀었기 때문에, AI의 성능은 오히려 떨어집니다.

    향후 제조 AI가 발전해야 할 방향

    • 뉴로-심볼릭을 통해, ‘속성’과 ‘맥락’을 함께 판단해야 합니다. 예전에는 객체의 속성만을 개별적으로 판단했다면, 지금은 장면 전체의 맥락과 객체 간 관계를 함께 이해하는 것입니다.

    • 속성만 볼 때는 "투명하고 변형된 A 부품"인데, 문맥까지 보면 "투명하고 변형된 A 부품인데, B 부품과 겹쳐있고 반사광이 경계를 가리고 있다"까지 추론할 수 있습니다.

    • 제조 AI는 단순히 외형적 형태보다 재질, 광학적 반사·흡수, 오염·변형 상태 같은 내면의 속성 정보까지 중심으로 판단하는 방향으로 발전해야 해요.

    • 또한 단일 RGB 카메라에 의존하지 않고, NIR, 하이퍼스펙트럴, X-ray 등 멀티센서를 융합한 멀티모달 접근이 필요합니다. 실제 공정 환경의 복잡성을 반영한 데이터셋을 함께 활용하는 것이죠. 


    1. 모 대기업의 재활용 AI 사례 속 3가지 문제점, 해결 방안

    페블러스의 실제 모 대기업의 PoC 사례를 소개해드리려 합니다. 지자체 자원재활용 AI를 위한 데이터의 품질을 향상시킨 사례이며, 폐플라스틱을 중점적으로 개선했습니다. 페블러스는 이 사례 이후에도 제조 AI에 대한 수차례 정부 과제를 수행하고, 자체적으로 연구를 진행해왔습니다.

    • AI 도입 전 문제점: 기존의 자원재활용 현장은 100% 수작업으로 운영됐습니다. 그러나 코로나 당시 노동자들이 격리되면서 작업 자체가 불가능해졌고, AI 자동화의 필요성이 절실해졌습니다.

    • AI 도입 후 문제점: 그렇게 실제로 AI를 현장에 사용해보았지만 불편한 점이 나타났습니다. 기존 AI는 야외에서 폐기물을 식별하는 수준에 머물러 있었고, 실제 선별장의 복잡한 환경은 전혀 반영되지 않았던 것입니다. 

    그렇게 해당 기업은 데이터 종합병원, 데이터클리닉을 찾아와 문제를 해결하게 되었습니다. 

    페블러스가 생성한 폐플라스틱 합성데이터
    페블러스가 생성한 폐플라스틱 합성데이터

    1) 같은 플라스틱 안에서도 분류해야 할 재질이 다양합니다. 

    특히 한 공장에서 다품종의 제품을 생산하는 기업이라면 이 부분을 주목해주셨으면 합니다. 

    재질

    실생활 예시

    PET

    생수병, 음료수병

    HDPE

    샴푸통, 세제통

    ECAL

    우유팩, 주스팩 (종이+알루미늄+플라스틱 복합)

    PET 오일

    식용유 병

    혼합 연질 플라스틱

    비닐봉지, 과자 봉지

    혼합 경질 플라스틱

    플라스틱 뚜껑, 장난감

    판지

    택배 상자, 종이 박스

    금속

    캔, 알루미늄

    이번 사례를 예로 들면, 재질이 총 8가지로 나누어지고 있었습니다. 여기에 제품 특성에 따라 재질뿐만 아니라 색상, 표면 상태까지 조금씩 달라집니다. 투명한지 흰색인지 검정인지, 도장이 있는지 없는지 오염됐는지까지 다양합니다. 

    페블러스가 메트리얼 적용 자동화로 생성한 폐플라스틱 합성데이터
    페블러스가 메트리얼 적용 자동화로 생성한 폐플라스틱 합성데이터

    💻

    페블러스에서 제조 AI 사례를 분석해봤을 때, 많은 문제들이 여기에서부터 시작됩니다. 이 조건들이 복합적으로 조합되면 경우의 수가 폭발적으로 늘어납니다. 심지어 기업에 따라 경우의 수가 수천 가지로 늘어나기도 합니다.

    • 그런데 실제 데이터에서는 이 모든 조합이 고르게 존재하지 않습니다.  특정 조합의 데이터는 현저히 부족한 것입니다. 실제로 수집하려면 수개월을 기다려야 합니다.

    • 이때 제조 AI는 편향성에 빠집니다. 데이터가 많은 조합은 빠르게 알아보지만, 희귀한 조합 앞에서는 명확하게 구분해내지 못하고 오류를 발생시킵니다.

    • 게다가 주스팩처럼, 복합 재질을 가진 쓰레기도 있습니다. 만약 겉부분은 PE인데 안쪽은 다른 재질이라면 어떨까요? 사실 이건 외관만으로 구분이 불가능하죠. 

    해결책: 희귀 케이스 의도적 대량 생성, 복합 재질 정보 내장 생성

    데이터클리닉은 재질, 색상, 오염 상태를 설정값으로 조절해 원하는 조합을 의도적으로 대량 생성할 수 있습니다. 현실에서 100장 모으기도 어려운 조합을 수천 장 확보할 수 있는 것입니다. AI가 특정 조합만 유독 못 알아보는 성능 불균형 문제를 해소합니다.

    또한 복합 재질 물체의 경우, 데이터클리닉은 해당 물체에 대한 합성데이터를 생성할 때 복합 재질에 대한 정보를 처음부터 내장된 상태로 생성합니다. 그러면 완성된 이미지에는 이미 "이 물체의 겉은 PE, 안은 복합재"라는 정보가 자동으로 붙어 있습니다. 

    2) 투명하거나 반사되는 경우, AI가 인식하지 못합니다. 

    여러 재질 중에서 일부는 투명하거나 반사가 되어 AI가 명확하게 인식하지 못했습니다. 

    • 투명 PET 병, 투명 비닐: 재활용 현장에서 흔하게 등장하는 쓰레기입니다. 그런데 이런 상황이 꽤나 흔합니다. 투명 페트병 위에 투명 비닐이 겹쳐져 있는 것이죠. AI는 이런 경우 하나의 물체처럼 인식하거나, 아예 쓰레기가 아닌 배경으로 인식하는 문제가 있었습니다.

    • 금속 캔: 재질 특성 상 표면이 일부 반짝이고, 주변 환경이 그대로 반사됩니다. AI는 이 반사광 때문에 경계를 제대로 잡지 못하는 문제가 있었어요.

    • 검은 플라스틱(카본블랙): 검은 플라스틱은 빛을 거의 흡수해버립니다. 일반 카메라 센서는 빛의 반사를 통해 물체를 인식하는데, 반사되는 빛이 없거나 미미하면 센서가 물체 자체를 감지하지 못하는 문제가 있었죠. 

    페블러스가 형태 변형 시뮬레이션을 적용하여 생성한 폐플라스틱 합성데이터
    페블러스가 형태 변형 시뮬레이션을 적용하여 생성한 폐플라스틱 합성데이터

    해결책: 재질 및 광택의 정밀 구현 (PBR)

    “그러면 이런 경우는 어쩔 수 없이 수동으로 분류해야 하는 건가?” 

    이렇게 생각하실 수도 있지만, 그렇지 않습니다. 이 부분도 합성데이터를 보강하는 방향으로 해결하면 노동력을 절감할 수 있습니다.  

    • 투명한 생수병부터 불투명한 세제 용기까지, 반사광과 질감을 물리 기반 렌더링(PBR, Physically Based Rendering)으로 구현할 수 있습니다. PBR이란 빛이 실제 물리 법칙대로 반사, 굴절, 흡수되도록 컴퓨터로 계산하는 기술입니다. 영화 CG에서도 쓰이는 방식이죠.

    • 또다른 해결책으로 NIR(근적외선) + 하이퍼스펙트럴 + X-ray를 함께 써서 재질의 화학적 성분으로 구분하는 방식도 있습니다. 겉보기엔 똑같이 투명한 PET와 PS를 화학 성분으로 구별하는 것입니다.

    • 다만 카본블랙은 빛을 완전히 흡수해 일반 센서로 감지 불가하기에, 기존보다 정밀한 센서(MIR, 라만 분광법)로 변경하고 해당 센서에 맞춘 합성데이터를 생성해야만 해결 가능합니다. 

    3) 조금이라도 형태가 변형되면, AI는 처음 보는 물체로 인식합니다.  

    “이게 뭐야?”

    쓰레기는 버려지는 과정에서 찌그러지고, 찢어지고, 서로 얽혀 있습니다. 납작하게 찌그러진 PET병을 보고 AI는 혼란을 겪습니다. 사람 눈에는 모두 페트병으로 보이겠지만, AI의 눈에는 처음 보는 물체입니다. 

    용기의 다양한 형태를 반영하여 생성한 폐플라스틱 합성데이터
    용기의 다양한 형태를 반영하여 생성한 폐플라스틱 합성데이터
    페블러스의 찌그러진 폐플라스틱 합성데이터
    페블러스의 찌그러진 폐플라스틱 합성데이터

    👁️‍🗨️

    이때 자칫하면 AI가 구겨진 모습, 오염된 모습을 ‘오류’로 오판할 수 있습니다. 그러나 이 또한 쓰레기이기 때문에, 이를 엄연한 특징으로 인식시킬 수 있도록 학습시켜야 합니다.

    🤖

    또한 현장에서 움직이는 AI, 이른바 피지컬 AI가 탑재된 로봇이 현장에서 운용된다면 어떨까요? 멀쩡한 페트병과 찌그러진 페트병, 로봇 입장에서는 다른 파지 전략이 필요합니다. 파지란 로봇이 물체를 움켜쥐는 것을 말합니다. 해당 물체를 인식은 해도, 그 다음 단계로 잡지 못하는 것도 문제입니다.

    해결책: 무한한 형태 변형 시뮬레이션

    찌그러진 플라스틱을 하나씩 모으고, 찍고, 라벨링하는 것은 어려운 일입니다. 페블러스는 데이터 품질 관리 솔루션, 데이터클리닉을 통해 가상 공간에서 클릭 몇 번으로 구겨지고, 휘어지고, 찢어진 상태를 무한히 생성했습니다. 그 로봇은 어떤 형태로 변형된 물체도 놓치지 않고 인식할 수 있게 됩니다.

    이 해결책의 배경도 말씀드리자면, 형태 변형 문제를 풀기 위해 연구되고 있는 여러 기술들을 활용했습니다. 

    • 가우시안 스플래팅 / 확산 모델: 변형된 물체의 원래 형태를 3D로 복원합니다. 

    • UOIS: 한 번도 본 적 없는 물체도 개별로 분리해낼 수 있는 기술입니다. 

    • Amodal Segmentation: 재활용 작업 현장에서 쓰레기가 다른 물체에 의해 일부가 가려질 수도 있습니다. 이렇게 가려진 부분까지 추론해서 전체 형태를 파악할 수 있는 기술입니다.


    4) 고객사를 위한 페블러스의 또다른 아이디어 제안

    페블러스는 ‘데이터 인프라 전문 그룹’입니다. 단일적인 ‘데이터’만 보는 게 아니라, 이를 아우르는 인프라, 운영 방법까지 고민하는 것입니다. 

    해당 사례 속 현장은 AI 자동화 100%가 아니라, 작업자와 AI가 함께 협업하는 환경이었습니다. AI와 사람의 업무를 나누어 사람의 업무량 자체가 줄어들 수 있습니다. 

    그런데 여기에서 한층 더 나아가서, 사람이 수행해야 할 업무를 이전보다 효율적으로 AI 시스템으로 도움을 준다면?

    효율성은 더욱 높아집니다. 이러한 맥락으로 제안드린 아이디어가 ‘프로젝터 협업 시스템’입니다. 해당 아이디어는 고객사로부터 수상까지 받은 아이디어입니다.

    • 컴퓨터 비전과 프로젝터를 함께 설치해, AI가 감지한 주요 물체의 위치를 컨베이어 벨트 위에 빛으로 직접 표시합니다.

    • 작업자가 모든 물체를 일일이 확인하는 대신, AI가 "이것만 보세요."라고 알려주는 방식입니다.

    • 사람이 집중력을 아끼면서 선별 정확도를 높이는, 사람과 AI의 새로운 협업 구조인 것입니다. 


    건강한 데이터가 적용된 제조 AI 사례, 도입 효과는 어떨까?

    위 재활용 AI를 기업에 도입한 효과, 어떻게 나타났을까요?

    1. 인식 정확도 향상

    쓰레기의 오염률이 15~25%에서 5%로 줄어들었습니다. 즉 찌그러지고 오염된 폐기물도 정확히 인식하게 되어, 재활용이 가능한데 버려지는 쓰레기들이 줄어들었다는 뜻입니다. 광학적으로 까다로운 재질도 학습했기 때문에 오인식이 줄어들고, 선별의 정확도가 높아집니다.

    2. 파지 성공률 극대화

    기존에는 로봇이 찌그러진 PET병을 보고 어디를 잡아야 할지 판단하지 못해 헛발질이 나오고 라인이 멈추는 현상이 나타났습니다. 형태와 질감을 학습한 AI는 최적의 파지 방법을 즉시 판단해 공정 속도를 높일 수 있어요.

    3. 데이터 구축 시간·비용 80% 절감

    현장에서 수개월간 직접 촬영하고 하나씩 라벨링할 필요가 없습니다. 데이터 품질 관리 솔루션, 데이터클리닉을 통해 가상 환경에서 생성과 자동 라벨링을 동시에 처리해 단기간에 고순도의 데이터를 확보할 수 있어요.  

    보안으로 인해 해당 사례의 실제 수치를 공개하기는 어렵지만, 업계 레퍼런스를 기반으로 한 보수적 시나리오를 예시로 들겠습니다. 아래 내용을 모두 합산하면 연간 약 5억 원을 절감하는 효과가 나타납니다. 

    💸

    월 처리량 500톤 규모의 중소 선별장을 기준으로 계산해보겠습니다. 합성데이터로 인해 오염률을 20%에서 5%로 낮추는 것만으로 매월 75톤의 폐기물이 매립, 소각 대신 재활용으로 전환됩니다. 톤당 처리비 30만 원 기준으로 하면, 연간 약 2억 7천만 원의 처리 비용이 절감되는 것이죠.

    👥

    AI 도입으로 3교대 선별 인력 30명 중 10명을 감축한다면 어떨까요? 인건비만 연간 2억 4천만 원이 추가로 절감됩니다.

    4. 지속 가능한 운영

    인력에 의존하던 위험한 선별 작업을 로봇이 대체합니다. 악취, 오염물질 노출과 산업재해 위험이 사라집니다. 또한 3교대로 운영하던 현장을 24시간 365일 무중단 가동으로 전환됩니다.

    5. ESG 성과 가시화

    또한 환경(Environment), 사회(Social), 지배구조(Governance), ESG가 기업 평가의 핵심 지표라면 더욱 도움이 됩니다. 

    • 과거: 기존에는 ‘우리 재활용 잘 합니다.’라고 말해도 증명할 숫자가 없었어요.

    • 현재: 데이터 기반으로 운영하면 재활용률, 탄소 절감량 등을 수치로 제시할 수 있어 투자자와 규제기관에 순환경제 기여도를 객관적으로 증명할 수 있는 것이죠!

      재활용 AI를 위한 데이터 품질 진단 리포트 보러가기

    2. 국가 산업 폐기물 이미지 100만 장, 데이터클리닉 분석 결과는?

    이어서 AI Hub를 통해 구축 및 배포된 데이터를 분석해보려 합니다. 분석한 데이터셋은 국내 최대 규모의 산업 폐기물 이미지 데이터셋입니다. 공장·산업시설에서 발생하는 72종의 폐기물을 실제 현장에서 촬영한 고해상도 이미지 100만 장으로 구성되어 있어요.

    100만 장이라는 어마어마한 규모, 그러나 데이터의 내면을 분석해보면 의외의 결과가 나타납니다. 페블러스의 데이터 품질 관리 솔루션, 데이터클리닉으로 이 데이터셋을 직접 분석했습니다. 

    산업 폐기물 이미지 데이터셋 콜라주 - 금속류, 폐섬유, 유리도자기류, 합성수지 등 72종의 다양한 폐기물
    산업 폐기물 이미지 데이터셋 콜라주 - 금속류, 폐섬유, 유리도자기류, 합성수지 등 72종의 다양한 폐기물

    1) 특정 재질만 인식하는 AI가 만들어질 우려가 있습니다. 

    이 데이터셋의 가장 심각한 문제는 클래스 불균형입니다. 평균 클래스는 11,257장인데, 사실 이는 평균일 뿐 그 안에서 차이는 뚜렷합니다. 실제로 합성수지-비닐류의 이미지는 무려 79,560장인 반면, 가장 적은 클래스는 단 20장에 불과합니다. 같은 데이터셋 안에서 최대 3,978배나 차이가 나는 것입니다.

    산업 폐기물 이미지 데이터셋 - 최대 클리스, 평균 클래스, 최소 클래스 비교 그래프
    산업 폐기물 이미지 데이터셋 - 최대 클리스, 평균 클래스, 최소 클래스 비교 그래프

    지나친 데이터 불균형은 편향된 AI를 만듭니다. 데이터가 많은 클래스를 편향적으로 학습합니다. 즉 79,560장의 합성수지 비닐류는 정확하게 알아보지만, 나머지 20장짜리 클래스는 학습이 되지 않아 실제 현장에서 그 쓰레기가 나타나면 AI는 오분류하거나 아예 인식하지 못합니다.

    전체 100만 장의 데이터, 그러나 알고 보면 중요한 것은 전체 데이터의 수가 아니라 클래스별 숫자입니다. 규모보다 균형입니다.

    해결책: 소수 클래스를 보강하고, 다수 클래스는 정리해야 합니다. 

    이런 상황에서는 두 가지 해결 방향을 제안드립니다. 

    1. 합성데이터 생성으로 소수 클래스 집중 보강

    • 소수 클래스가 최소한 인식될 수 있을 정도로는 그 수를 채워 넣어야 합니다. 데이터클리닉에서는 해당 케이스에서 20장짜리 클래스를 최소 5,000장 수준까지, 평균의 50% 이상은 끌어올리는 것이 적합하다고 생각합니다. 클래스당 5천장이면 경험상 데이터의 다양성이 확보되는 적절한 숫자였습니다.

    • 물론 이 기준은 케이스마다 조금씩 다르기에, 특정 사례에서는 5천 장보다 더 많거나 적은 양이 필요할 수도 있습니다.

    1. 데이터 경량화로 다수 클래스 정리

    • 79,560장의 이미지 중 중복되거나 유사한 이미지를 줄입니다. 데이터를 대폭 경량화하여 클래스 간의 균형을 맞추는 것이죠! 결과적으로 데이터 총량은 줄어들지만, AI가 모든 클래스를 고르게 학습할 수 있는 구조가 만들어집니다.

    2) 사람도 구분하기 힘든 재질, AI가 명확하게 구분할 수 있도록 해야 합니다. 

    여러분, 잠깐 멈추셔서 한 가지 문제를 맞추어 보세요.

    아래 두 가지 물체, 둘의 재질은 각각 어떤 재질인 것 같으세요?

    유리도자기류 - 기타
    유리도자기류 - 창유리


    두 번째 사진은 분명 유리로 보이는데, 첫 번째 사진은 어떤 재질인지 감이 잡히지 않으시죠? 정답을 공개합니다.

    둘다 유리도자기류라는 같은 대분류에 속합니다. 각각 유리도자기류-기타, 유리도자기류-창유리로 분류됩니다.

    💥

    분명히 똑같은 재질이지만 사람이 봐도 구분하기 어려울 정도로 형태가 극단적으로 다르죠. AI도 마찬가지입니다. 해당 이미지로 학습한 제조 AI는 두 이미지를 보고 완전히 다른 재질로 인식할 수 있다는 것입니다.

    같은 재질끼리 같은 곳으로 보내는 것, 분리수거 AI의 목표입니다. 제조 AI에서도 익숙한 규칙이기도 합니다. 그런데 AI가 이 역할을 수행하지 못하고 판단력이 흐려질 수 있어요. 

    해결책: 클래스 레이블을 시각적 특성 기준으로 재설계해야 합니다. 

    사람도 눈으로 봤을 때 구분하기 어려운데, 과연 AI가 구분할 수 있을까요? 충분히 가능합니다. 

    이렇게 극단적으로 다른 이미지가 있다는 것 자체는 사실 좋은 신호입니다. 무조건 비슷한 재질이면 비슷한 이미지만 있는 게 아니라, 다양한 이미지가 있어야만 AI의 지식이 늘어납니다.  

    다만 이 글을 읽는 분들이 퀴즈를 맞추면서 헷갈리셨던 것처럼, AI도 혼란에 빠질 수도 있겠죠. 그래서 각 이미지마다 세부 클래스 라벨을 따로 붙여줘야 합니다. 각 도메인 전문가의 지식을 토대로, 이미지의 라벨을 붙여주는 것이죠. 

    100만 장의 산업 폐기물 데이터에 대한 품질 진단 리포트 보러가기

    제조 AI를 준비하지 않은 기업, 준비한 기업. 당장 5년, 10년만 지나도 그 격차는 벌어질 것입니다.

    이러한 위기를 직감하고 많은 기업들이 제조 AI를 도입하려 하지만, 데이터라는 벽을 넘지 못하고 있습니다. 

    페블러스가 현대자동차, 삼성E&A, LG전자 등 대기업과 협업하며 느낀 점이 있습니다. 좋은 제조 AI는 좋은 데이터에서 나온다는 사실입니다. 제조 AI에게 좋은 데이터란, 현장의 복잡함을 그대로 구현한 데이터입니다. 

    또한 지난 3월 DISS(Data Insight & Security Summit) 2026, 페블러스 이주행 대표님이 ‘Physical AI 시대의 데이터 병목을 해결하는 Agentic Data Clinic 솔루션’을 주제로 페블러스의 노하우, 경험담을 솔직히 풀어나갔습니다. 

    키노트 발표 기업 14곳 중 페블러스의 솔루션이 ‘도입하고 싶은 솔루션 1위’, ‘상담 원하는 솔루션 1위’를 기록한 것도, 이 문제를 현장에서 가장 가깝게 풀어온 경험 덕분이라고 생각합니다.

    귀사의 제조 현장에서 기술력과 생산성을 모두 높이는 제조 AI가 될 수 있도록, 이번 제조 AI 사례처럼 기업 맞춤형 해결책을 제안해드리겠습니다.

    본 기사는 페블러스의 기획 하에 AI를 보조적으로 활용하여 작성되었으며, 페블러스의 엄밀한 감수를 거쳐 출간되었습니다.



    Share article

    데이터클리닉 블로그

    RSS·Powered by Inblog