데이터 시각화 도구, 실무가 편해지려면? 5가지 기준과 실제 활용 사례

데이터 시각화 도구, 어떻게 골라야 할까요? 5가지 기준을 살펴 보시면 선택이 편해집니다. 현업에 최적화된 툴, 실제 활용 사례도 준비했습니다.

Feb 19, 2026

Contents

데이터 시각화 도구가 필요한 이유는 무엇일까?데이터 시각화 도구 고르는 기준 5가지 1) 데이터의 구조에 알맞는 도구를 선택해야 합니다.2) 조직 내 그 누구든 사용하기 쉬운가?3) 공유가 간편한가?4) 대규모 데이터에서도 버티는 성능인가?5) 다양한 플랫폼과 호환이 가능한가?데이터 과학자가 직접 사용한 툴 4가지 비교 분석 1) Tableau 2) FineReport 3) Plotly (파이썬 시각화 라이브러리)4) 페블로스코프(PebbloScope)데이터 커뮤니케이션 툴, 페블로스코프(PebbloScope)! 자세히 알아보기 1) 우주 속 별자리 형태, 데이터 시각화에 가장 최적화된 형태.2) 유사한 데이터, 과밀한 데이터를 파악하려면? ‘데이터 커뮤니티’3) 공유를 정확하고 간편하게, ‘데이터 스냅샷’4) 간편한 사용성, 처음 다루는 분들도 모두 쉽게 다룰 수 있습니다.5) 페블로스코프를 안심하고 사용하실 수 있도록, 페블러스의 기술을 특허로 출원했습니다. 무인공장의 피지컬 AI 인프라 구축 프로젝트, 9,000개 데이터를 통해 로봇 팔의 충돌 패턴을 꿰뚫어봤습니다.전북대학교 정보혁신본부, 피지컬AI융합기술사업추진단의 구체적인 목표는?피지컬 AI 개발 과정에서 발생한 문제점 2가지 무인공장의 피지컬 AI, ‘지능형 공간 데이터 플랫폼’ 구축 4단계 전북대학교 무인 공장 피지컬 AI PoC 프로젝트, 그 결과는?전북대학교 피지컬 AI 프로젝트를 위한 페블로스코프의 역할은?

데이터 시각화 도구가 필요한 이유는 무엇일까?

조직 구성원들 모두가 복잡한 데이터를 쉽게 해석할 수 있기 때문입니다.

데이터는 전문가만 다루지 않습니다. 조직 내 다른 구성원들도 함께 이용하죠. 그런데 표나 문장으로만 나열되어 있으면 데이터 전문가가 아닌 이상 인사이트를 해석하기가 어렵습니다. 그저 흰 바탕에 숫자 더미로만 보이는 것이죠.

💡

데이터 시각화 도구를 사용하면 엔지니어, 데이터 과학자 뿐만 아니라 마케팅팀, 기획팀, 영업팀, 경영진 등 다른 부서까지 곧바로 이해하기 쉬워집니다. 회의 시간이 짧아지며, 커뮤니케이션에서 오해가 줄어들고, 의사 결정이 훨씬 빠르게 진행됩니다!

데이터 시각화 도구 고르는 기준 5가지

사실 정말 다양한 기준이 있지만, 그 중 가장 중요한 핵심 기준 5가지만 고르자면 이렇습니다.

1) 데이터의 구조에 알맞는 도구를 선택해야 합니다.

먼저 이 질문에 답변해주셔야 합니다. 여러분이 분석할 데이터는 어떤 구조인가요? 도구를 선택하기 전 가장 먼저 확인해야 할 내용입니다. 분석하려는 데이터의 구조에 따라 적합한 도구가 완전히 달라집니다.

데이터의 구조는 이전보다 훨씬 다양해졌습니다. 숫자 외에도 이미지, 영상, 텍스트, 로그, 임베딩 벡터 등 그 종류가 다양하죠. 그래서 데이터의 구조가 다양해질수록, 시각화 방식도 그에 걸맞게 바뀌어야 합니다.

정형 데이터(숫자, 값으로 구성된 데이터): 바 그래프, 선 그래프처럼 2D 차트가 적합합니다. 숫자 컬럼이 깔끔히 정리된 테이블에는 잘 맞아요. 이미지나 텍스트와 같은 비정형 데이터도 표현은 가능하나, 극히 일부만 표현할 수 있습니다. 전체를 표현하기에 한계가 있죠.
비정형 데이터(이미지, 영상 등 고차원 데이터): 3D 차트로 확인해야 합니다. 2D 차트만으로는 데이터가 겹쳐보여서 중요한 패턴과 특성을 발견하기란 어렵습니다. 결측, 이상치, 클러스터 같은 특징을 한눈에 파악하기란 어려워요.
멀티모달 데이터(텍스트, 이미지, 음성 등이 결합된 데이터): 비정형, 정형 등 여러 종류의 데이터가 결합되어 더욱 복잡하고 높은 차원을 가진 데이터를 말하는데요. 각 모달리티(양식) 간의 복잡한 관계를 파악하고 전체적인 특징을 이해하기 위해서는 어떻게 해야 할까요? 개별 모달리티를 위한 시각화(2D, 3D)를 넘어, 모달리티 간의 복합적인 상호작용을 나타낼 수 있는 특수한 3D 시각화 또는 관계형 그래프 형태가 필요할 수 있습니다.

이처럼 큰 틀에서 데이터를 나눌 수 있습니다. 즉 우리 조직이 조직이 어떤 종류의 데이터를 다루는지 먼저 파악한 뒤 그에 맞는 시각화 도구를 선택하셔야 합니다.

2) 조직 내 그 누구든 사용하기 쉬운가?

데이터 시각화 도구가 필요한 이유에 대해서 말했듯이, 결국 데이터 시각화는 ‘데이터팀만’ 보는 것이 아닙니다. 마케팅, 기획, 운영, 경영진 등 다양한 이해관계자가 모두 사용합니다.

만약 도구가 어렵거나 사용법을 익히기 까다롭다면? 결국 데이터 과학자의 일이 늘어나게 됩니다. 비전문가 입장에서는 사용이 까다로우니, 타 부서에서는 데이터팀에 끊임없이 도움을 요청하게 되는 것이죠. 협업이 쉬워지기 위해 툴을 도입한 건데, 정작 협업을 더 어렵게 만들게 만듭니다.

💡

간단히 설명하자면, 비전문가가 사용 방법을 한두번 보더라도 금방 적응할 수 있는지를 판단해보셔야 합니다. UX, UI가 편리한지, 대시보드 디자인 자체가 직관적이고 모두가 이해할 수 있는지를 확인하는 것이죠.

3) 공유가 간편한가?

사용하기 쉽다, 아니다를 넘어서, 다른 팀원이나 부서 간에 데이터를 공유하기 쉬운지도 확인해보셔야 합니다.

링크 한 번이면 끝나는 데이터 시각화 도구도 있습니다. 이와 반대로 별도의 공유 기능이 없어서 일일이 프로그램을 다운받고 로그인을 해서 접속해야 하거나, 매번 파일을 저장해서 공유해야 하는 설정이 필요한 툴도 있습니다.

4) 대규모 데이터에서도 버티는 성능인가?

만약 몇십, 몇백 건 단위의 적은 수의 데이터만 다룬다면, 그 어떤 데이터 시각화 도구든 대부분 무리 없이 작동합니다. 그런데 기업에서 사용하는 데이터는 매우 방대하죠. 심지어 지금 이 순간에도 실시간으로 계속 쌓이는 데이터들도 있고요.

이때 문제가 생깁니다. 데이터를 로드했을 때 대시보드가 멈추거나, 로딩 속도가 지나치게 느려지거나, 브라우저가 버벅거리거나, 그래프가 깨지는 것이죠. 대량의 데이터뿐만 아니라, 고차원 데이터를 다루시는 기업이라면 이런 현상을 더욱 주의하셔야 합니다.

5) 다양한 플랫폼과 호환이 가능한가?

타 플랫폼과 호환이 불가능하다면 어떨까요? 처음엔 괜찮을 수 있어도 조직의 데이터, 시스템 구조가 바뀌었을 때 발목을 잡을 수 있습니다. 또한 다른 플랫폼과 연동이 어려워 협업에도 차질이 생기죠.

데이터 과학자가 직접 사용한 툴 4가지 비교 분석

그러면 이제부터 위에서 말씀드린 선택 기준에 따라, 여러분이 사용하였을 때 실무에서 도움이 될 수 있는 데이터 시각화 도구 4가지를 말씀드리려 합니다. 또한 각 도구들은 데이터 과학자의 관점에서 보았을 때 좋은 점, 아쉬운 점이 있었습니다. 이 부분도 함께 분석해보려 합니다.

1) Tableau

데이터 구조 적합성: ‘정형 데이터(숫자, 값)’에는 탁월합니다. 그러나 ‘비정형 데이터(이미지·텍스트·임베딩)’은 구조적 표현에 부분적인 한계가 있습니다.
사용 난이도: 비전문가도 쉽게 대시보드를 작성할 수 있는 편입니다. 하지만 SQL 지식 없이는 세부 조작이 어렵고, 복잡한 데이터 모델링은 난이도가 좀더 높아집니다. 조직 전체 사용성은 높은 편이나, 기술적 장벽이 완전히 없진 않습니다.
공유 기능: 웹 퍼블리싱, 권한 관리, 팀 단위 공유 기능이 매우 편리합니다. 조직 보고서 자동 업데이트 기능도 존재하고요. 보고 중심 협업에 최적화되어 있습니다.
대규모 데이터 성능: 수십만 행까지는 안정적이지만, 대규모, 고차원 데이터는 로딩이 불가하거나 성능이 저하됩니다.
플랫폼 호환: Tableau는 Desktop/Server/Cloud(Online) 등 자체 생태계가 탄탄합니다. 또한 클라우드 데이터 웨어하우스(Snowflake, BigQuery 등)와 연결이 가능하고요.

2) FineReport

데이터 구조 적합성: 정형 데이터 기반의 리포트 및 대시보드 제작에 특화되어 있습니다. 비정형 데이터, 임베딩 기반 데이터 표현은 사실상 불가합니다.
사용 난이도: 템플릿 기반이라 비전문가도 금방 적응 가능합니다. 보고서 제작은 쉬우나, 고급 분석 옵션은 제한적이고요. 즉 분석에 있어서 자유도는 낮은 편입니다.
공유 기능: 대시보드 공유, 보고 문서 배포 기능이 직관적이고 편리합니다.
대규모 데이터 성능: 백엔드 DB 성능에 달려 있습니다. 정형 데이터 수십만 건은 문제가 없으나 비정형, 대규모, 고차원 데이터는 구조적 한계가 드러납니다.
플랫폼 호환: 사내 시스템, 인트라넷 통합에 강합니다.

3) Plotly (파이썬 시각화 라이브러리)

데이터 구조 적합성: 정형, 비정형 데이터 모두 표현 가능합니다. 특히 임베딩 시각화에 강합니다. 3D scatter로 군집 구조도 표현할 수 있죠. 아래 이미지처럼 3D 형태의 이미지를 볼 수 있습니다.
사용 난이도: 파이썬 기반이라 비전문가는 사실상 사용이 어렵습니다. 데이터 과학자가 직접 다루기에 적합합니다. 즉 조직 전체가 다루기엔 다소 어려움이 있고, 그 대신 데이터 과학자가 데이터 시각화 도구로 대시보드를 직접 생성해야 합니다.
공유 기능: 웹 서버 구축 시 공유 가능하나 다소 어려움이 있습니다. 이 부분에 있어서도 역시 협업보다는 데이터 과학자, 엔지니어가 직접 사용하기에 적합한 툴이라 볼 수 있습니다.
대규모 데이터 성능: 클라이언트 렌더링 구조, 대량 데이터를 사용할 경우 버벅일 수 있습니다. 대규모에는 어느 정도 성능에 한계를 보입니다.
플랫폼 호환: Python, R, 웹 등 개발 환경에서 호환성이 뛰어납니다.
Plotly

4) 페블로스코프(PebbloScope)

데이터 구조: 임베딩, 고차원 벡터로 표현할 수 있는 비정형 데이터(이미지, 텍스트 등)에 최적화되어 있습니다. 3D 기반 데이터 시각화 도구이며, 빅데이터 간의 군집, 거리, 형태, 이상치가 보입니다.
사용 난이도: 비전문가도 쉽게 이해할 수 있도록 인터페이스를 설계했습니다. 복잡한 코딩 없이 데이터를 탐색하는 구조입니다.
공유 기능: ‘스냅샷’ 기능으로 고유 URL을 만들어서 즉시 공유할 수 있습니다. 기업 구성원들 모두가 같은 화면을 보고 소통 가능한 것이죠.
대규모 데이터 성능: GPU 기반의 대규모 임베딩 분석 엔진과 3D 시각화 기술을 통합한 고성능 데이터 탐색 플랫폼입니다. 고차원 데이터도 실시간 탐색 가능하고요. 대규모, 고차원 데이터에서도 문제 없습니다.
플랫폼 호환: 웹, Mathematica, TouchDesigner 등 다양한 플랫폼과 호환됩니다.

데이터 커뮤니케이션 툴, 페블로스코프(PebbloScope)! 자세히 알아보기

이렇듯 페블러스는 여러 데이터 시각화 도구들을 직접 사용해보았습니다. 그렇게 기존 툴들의 아쉬운 점은 보완하고, 페블러스만의 인사이트를 담아 ‘페블로스코프’를 탄생시켰습니다. 페블로스코프가 데이터를 어떤 모습으로 보여주는지 조금 더 자세히 살펴보겠습니다.

1) 우주 속 별자리 형태, 데이터 시각화에 가장 최적화된 형태.

페블로스코프는 마치 어떤 우주의 별들 관찰하는 것처럼 느껴집니다. 실제로 페블로스코프는 우주 곳곳에 흩어져 있는 천체에서 영감을 얻어 만들어졌습니다. 광활한 데이터의 우주를 여행하며, 데이터가 이어진 별자리를 관찰할 수 있습니다.

그런데 단순히 디자인적으로만 영감을 얻은 것은 아닙니다. 우주 속 별자리 형태를 택한 이유는, ‘비정형 데이터의 본질’이 잘 드러나기 때문입니다.

이미지, 텍스트와 같은 비정형 데이터는 단순 테이블이나 2D 차트로는 내부 구조를 파악하기 어렵습니다. 그렇다면 3D 차트는 어떨까요? AI가 데이터를 임베딩하면, 각 데이터는 고차원 공간에서 하나의 ‘점(좌표)’이 됩니다. 이 점들이 많아지면 이러한 형상이 나타납니다.

비슷한 특징의 데이터끼리는 가까이 모입니다.
반대로 성격이 다른 데이터는 멀리 떨어지죠.
데이터가 부족한 영역은 ‘빈 공간’으로 나타납니다.
이상치는 군집에서 떨어진 외딴 별처럼 보입니다.

이른바 데이터의 내면이 그대로 드러나는 구조가 형성됩니다. 여기에 관찰 시점을 자유롭게 이동하고, 군집 구조를 여러 각도에서 확인하면서 더 세밀하게 데이터를 관찰할 수 있어요.

간편한 방식인데도 일반적인 데이터 값으로는 여러분이 미처 알아채지 못한 이상치, 과소, 과밀한 영역까지 모두 잡아낼 수 있는 것입니다. 결국 데이터의 ‘진짜 모습’을 ‘왜곡 없이’ 볼 수 있는 방식인 것이죠.

2) 유사한 데이터, 과밀한 데이터를 파악하려면? ‘데이터 커뮤니티’

또한 ‘데이터 커뮤니티’라는 기능이 있어 유사한 데이터, 과밀한 데이터를 파악할 때 유용합니다. 데이터 커뮤니티는 최적 차원 상의 거리를 기반으로 계산됩니다. 직관적으로 유사한 데이터를 확인하거나 과밀한 데이터를 파악하는 데 유용합니다.

페블로스코프 - StarMNIST 합성데이터에 대한 데이터 커뮤니티 시각화 예

3) 공유를 정확하고 간편하게, ‘데이터 스냅샷’

데이터 시각화 도구를 사용해야 하는 목적 중 하나가 ‘빠른 커뮤니케이션’이라고 말씀드렸었죠. 이때 페블로스코프는 ‘데이터 스냅샷’ 기능을 제공하여 데이터 인사이트의 공유가 쉬워집니다.

데이터 속 특정 데이터에 문제가 생겼을 때, 이 지점마다 데이터 스냅샷을 생성하고 메일이나 SNS 등으로 고유 주소를 공유할 수 있습니다. 자연의 멋진 순간을 촬영하여 친구들과 공유하는 것과 같습니다.

여기서 핵심은 ‘고유 주소’. 그 이유는 무엇일까요?

그 순간의 데이터 상태를 영원히 재현할 수 있기 때문입니다.

만약에 그저 이미지 캡쳐를 하거나 PDF 형식으로 다운로드만 받는다면, 분명 3D 데이터 시각화 도구인데도 불구하고 한 순간에 2D 이미지로 변하고 맙니다. 그래서 3D 기반 데이터 시각화 툴은 주소를 그대로 공유할 수 있어야 합니다.
페블로스코프의 ‘데이터 스냅샷’은 그 시점의 데이터 탐색 환경을 전체 기록한 ‘링크’입니다. 어떤 좌표인지, 수많은 데이터 중 어떤 데이터인지, 어떤 영역을 확대한 것인지… 모든 요소가 고유한 링크 하나로 저장되는 것이죠.
따라서 이 덕분에 팀원과 ‘정확히 똑같은 장면’을 공유할 수 있습니다. 추후 제안서, 보고서, 감사 대응 시 근거 자료를 남기기에 편리해지는 건 물론이고요.

4) 간편한 사용성, 처음 다루는 분들도 모두 쉽게 다룰 수 있습니다.

또한 페블로스코프의 사용성이 얼마나 뛰어난지 보여주는 좋은 사례가 한 가지 있습니다. 페블로스코프는 ‘인터랙티브 미디어 아트’로도 체험할 수 있다는 사실!

아래 작품 ‘Tangible Data’는 2024년 10월 23일부터 27일까지, 대한민국 서울 성수 피치스도원에서 열린 “2024 ZER01NE DAY” 전시회에서 페블러스 데이터아트랩(DAL)의 작품으로 전시되었습니다. 데이터 전문가부터 일반 시민까지. 그 누구라도 3D 데이터 우주를 탐험하며 데이터의 아름다움과 질서를 확인할 수 있습니다.
또한 데이터 시각화로 탄생된 작품 중 우수 작품을 선정하고 수상하는 ‘Information is Beautiful Awards 2024’에서 Unusual 부문의 Longlist로 선정된 이력이 있습니다!

'제로원 2024 크리에이터(ZER01NE 2024 CREATOR)'의 프로젝트 결과물 'Tangible Data: From Data Nature To Data Culture'

5) 페블로스코프를 안심하고 사용하실 수 있도록, 페블러스의 기술을 특허로 출원했습니다.

‘과연 믿을만할까?’

새로운 데이터 시각화 도구를 도입할 때 가장 먼저 드는 생각입니다. 한 번 기업에 새로운 도구를 도입하는 일 자체가 큰 리소스가 들기에, 이런 고민은 당연히 들 수 밖에 없습니다. 특히 제조, 국방 등 피지컬 AI 를 개발하려는 기업이라면, 더더욱 믿을만한 시각화 도구가 필요하고요.

그래서 페블러스는 페블로스코프의 기술을 안심하고 사용하실 수 있도록 특허를 등록하였습니다! ‘데이터 스냅샷 획득을 위한 사용자 인터랙션의 구현 방법 및 그러한 방법이 구현되는 컴퓨팅 장치(출원번호 10-2025-0019946)’라는 이름으로 특허가 등록되었습니다.

💡

사실 특허는 단순히 아이디어만으로는 받을 수 없습니다. 기존에 없던 새로운 기술, 해당 분야 전문가가 쉽게 떠올릴 수 없는 수준, 그리고 실제로 구현 가능한 기술이어야만 심사를 통과할 수 있죠. 페블러스는 이 3가지 조건에 부합하는 데이터 시각화 도구를 개발하여, 특허를 출원하여 등록받게 된 것이죠!

무인공장의 피지컬 AI 인프라 구축 프로젝트, 9,000개 데이터를 통해 로봇 팔의 충돌 패턴을 꿰뚫어봤습니다.

기술의 패러다임이 가상 공간을 넘어 현실에서 직접 동작하며 물리적 환경과 상호작용하는 '피지컬 AI'로 전환되고 있습니다. 특히, 제조와 같은 주력 산업 분야에서 물리적 할루시네이션(비정합적 오작동) 없이 높은 신뢰도로 작업을 수행하는 것이 핵심 목표가 되고 있습니다.

이 흐름에 따라 전북대학교 정보혁신본부 피지컬AI융합기술사업추진단은 무인공장을 위한 초거대 협업지능, 피지컬 AI 데이터 인프라의 개념을 PoC 과제를 통해 정립하고자 했습니다.

전북대학교 정보혁신본부, 피지컬AI융합기술사업추진단의 구체적인 목표는?

2개월이라는 짧은 기간 내 핵심 데이터 파이프라인 프로토타입 구축
데이터 처리 자동화율 90% 이상, 정합성 99.5% 이상

피지컬 AI 개발 과정에서 발생한 문제점 2가지

그러나 이 과정에서 2가지 문제점에 마주했습니다.

1) 데이터 전처리에 한계가 있었습니다.

실제 현장은 대규모 멀티모달(영상, 센서, 로그 등) 데이터는 수집부터 가공까지, 난이도가 매우 높습니다. 지금까지는 내부에서 연구원들이 수동으로 데이터를 정제해왔는데요. 일관된 품질 확보가 어렵고, 모델 연구보다 데이터 준비에 과도한 시간이 소요되어 비효율적이었습니다.

2) 정합성이 보장된 인프라가 부족했습니다.

고성능 AI 학습을 만들기 위해서는 어떻게 해야 할까요? 멀티모달 데이터(센서, 영상, 제어 메시지) 간의 정합성이 필요합니다. 센서, 영상, 제어 메시지가 하나의 시간, 공간 기준으로 같은 메시지를 담고 있어야 하는 것이죠. 그러나 이러한 이를 자동으로 처리하고 품질을 보증할 전문 플랫폼이 부재했습니다.

무인공장의 피지컬 AI, ‘지능형 공간 데이터 플랫폼’ 구축 4단계

페블러스는 내부 연구원분들 대신 데이터에 집중하고, 연구원분들은 모델 연구에 집중할 수 있도록 효율적인 구조를 만들었습니다! '지능형 공간 데이터 플랫폼'을 단계적으로 구축한 것인데요. 총 4단계로 나누어서 진행되었어요.

상세 분석 및 설계: 무인공장의 멀티모달 데이터(설비, 영상, 센서 등)를 진단하고, 2주 단위 스프린트 설계를 통해 개발 범위를 확정했습니다.

전북대학교 피지컬 AI PoC 데이터 진단 리포트 확인하기

플랫폼 아키텍처 및 정제 파이프라인 구축: 결측치 보정, 이상치 제거, 포맷 표준화가 가능한 자동화된 정제 파이프라인을 설계했습니다. 이 과정에서 페블러스의 데이터클리닉이 적용되었습니다.
데이터 지식화 및 벡터화: 이렇게 정제된 데이터에 시맨틱(의미) 정보를 부여하고, 임베딩 모델을 통해 벡터로 변환했어요. 지식 그래프 기반 저장소에 구축함으로써 의미 기반 검색이 가능하도록 한 것이죠.
API 연동 및 성능 실증: API도 필요했습니다. 최종적으로 처리된 데이터를 LLM/VLA 모델의 학습 포맷에 맞게 표준화하여 제공하는 API를 개발했고, 이 API를 통해 데이터 정합성 목표 달성 여부를 검증했습니다.

전북대학교 무인 공장 피지컬 AI PoC 프로젝트, 그 결과는?

단 2개월 만에 목표를 이룰 수 있었습니다!

데이터 준비에 80%의 시간을 쏟던 연구원 분들이 자동화된 정제 파이프라인 덕분에 이제 모델 아키텍처와 알고리즘 연구에 온전히 집중할 수 있게 되었어요.
자동화는 물론, 시공간적 정합성이 보장된 고품질 멀티모달 데이터셋을 확보하게 되었습니다.

전북대학교 피지컬 AI 프로젝트를 위한 페블로스코프의 역할은?

그렇다면 페블로스코프는 이 프로젝트에서 어떤 역할을 수행했을까요?

페블로스코프를 통해 피지컬 AI가 겪을 수 있는 충돌 사고를 미리, 정확하게 관찰할 수 있었습니다.

피지컬 AI 기반 무인공장에서 협업하는 로봇 팔이 박스를 옮기다 서로 충돌하는 순간, 사실 이런 충돌 데이터는 전체 중 단 5% 미만에 불과한 엣지 케이스 데이터입니다.

💡

그러나 이러한 경우에도 반드시 대비해야 합니다. 로봇 팔 간의 충돌은 공정 전체를 멈추게 하는 치명적인 리스크니까요. 이렇게 희귀하지만 치명적인 '충돌 데이터'를 어떻게 관리하느냐가 피지컬 AI의 고품질 멀티모달 데이터셋을 만드는 핵심이었습니다.

로봇이 스스로 위험을 감지하고 피할 수 있는 피지컬 AI를 개발하기 위해서는 데이터의 구체적인 경로를 설계해야 했어요. 물리기반 시뮬레이터를 통해 로봇 작업 중 발생하는 충돌 순간을 포착한 9,000장의 이미지를 분석했습니다.

그 중 429장의 충돌 이미지를 선별하여 페블로스코프 스냅샷을 통해 자세히 관찰했습니다. 이 429장의 데이터가 3차원 좌표계 위에서 서로 다른 군집(커뮤니티)을 형성하고 있는 모습을 확인할 수 있었습니다.

3차원 공간에서 멀리 떨어진 군집들이 보이는데요. 이런 군집들은 물리적으로 완전히 다른 사고 상황을 뜻합니다. 이 중 어떤 군집은 '로봇 팔 상단의 접촉'을, 다른 군집은 '박스를 놓치며 발생한 충돌'을 나타내죠. 이처럼 스냅샷 한 장을 분석하면 사고의 원인을 유형별로 즉시 파악할 수 있는 것입니다.
점들이 찍히지 않은 빈 공간도 중요합니다. 아직 확보하지 못한 사고 시나리오를 뜻하니까요. 이렇게 확보하지 못한 시나리오는 합성데이터를 별도로 생성하여 시나리오를 세울 수 있습니다. 부족한 영역만 골라 데이터를 채워 넣는 효율적인 합성데이터 생성이 가능해지는 것이죠.
또한 데이터의 우주 속에서 아예 무리에서 뚝 떨어져 홀로 떠 있는 외딴 별이 보이기도 합니다. 이런 경우는 잘못 라벨링된 노이즈이거나 꼭 챙겨야 할 엣지 케이스일 확률이 높습니다.

💡

게다가 복잡한 물리 환경 데이터를 사용하는 피지컬 AI의 특성상 데이터의 시공간적 맥락이 매우 중요한데요. 이 맥락을 그대로 전달할 수 있도록 효율적인 커뮤니케이션이 필요합니다. 그리고 이러한 커뮤니케이션이 페블로스코프로 가능했습니다.

예를 들어 "429번 이미지가 이상해요."라고 말하는 대신, 해당 이미지가 포함된 스냅샷 URL을 공유하면 어떨까요? 팀원은 즉시 동일한 시점의 3D 좌표와 이미지 리스트를 보게 됩니다. 분포가 확연히 다른 데이터 군집을 탐색하며 하드웨어 결함인지, 소프트웨어 로직의 오류인지 시각적 근거를 바탕으로 분석할 수 있고요.

전북대학교 피지컬 AI PoC 데이터, 페블로스코프로 확인해보세요!

전북대학교처럼 업무 효율은 늘리면서도 고품질의 데이터셋을 통해 피지컬 AI를 만들고 싶다면? 이제는 엣지 케이스까지 대비해야 합니다. 숨어 있는 엣지 케이스, 페블로스코프를 통해 빠르게 발견해낼 수 있습니다.

또한 페블로스코프로 데이터를 3D로 시각화한 후, 우리 데이터의 상태를 좀 더 섬세히 관찰하고 개선하고 싶다면? 데이터클리닉으로 데이터 품질 진단과 개선을 진행해 보세요.

💡

데이터 속 이상치, 공백, 중복, 편향 문제를 정확히 파악해 드립니다. 데이터 다이어트(중복 데이터 제거), 데이터 벌크업(합성데이터 생성)까지. KAIST, POSTECH, ETRI 출신 과학자들의 노하우가 담긴 데이터클리닉으로 데이터의 건강을 지키세요.

데이터클리닉 홈페이지에서 ‘문의하기’ 버튼을 누르신 후,
데이터셋 구축에 대한 고민을 말씀해주세요.
데이터클리닉의 전문가가 질문에 대해 심도 있게 고민한 후, 영업일 2~3일 내로 답변드리겠습니다.

또한 뉴스레터를 통해 매주 데이터 품질을 상승시키는 정보를 받아보세요!

데이터 품질을 매주 상승시키는 비결, 데이터클리닉 뉴스레터 구독하기!

본 기사는 페블러스의 기획 하에 AI를 보조적으로 활용하여 작성되었으며, 페블러스의 엄밀한 감수를 거쳐 출간되었습니다.

Contents