데이터 클리닉 개선 사례

데이터 클리닉이 제공하는 데이터 개선 사례를 소개합니다. 벌크업, 다이어트, 레플리카로 구성된 3가지 데이터 개선 솔루션으로 고민하고 계신 데이터 퀄리티 문제를 해결해 보세요.

Pebblous DAL, <Pebble Design System, Grid #1>, Code Painting, Digital Media, Joo-Haeng Lee

데이터 클리닉의 세가지 개선 솔루션

비어있는 데이터 영역
중복 데이터 영역
실제 데이터
합성데이터

데이터 벌크업 (Data Bulk-Up)

데이터가 부족한 부분을 찾아 데이터셋에 적합한 정밀 타기팅 합성데이터를 생성

데이터 다이어트 (Data Diet)

AI 모델의 성능을 보장하는 선에서 데이터셋의 중복/유사 데이터를 제거하고 경량화

데이터 레플리카 (Data Replica)

원본을 보호하며 데이터의 안전한 유통을 촉진하기 위해 통계적 분포적 특성이 유사한 가상데이터를 생성

자세히 알아 보는 데이터 개선 방법

정밀 타기팅 데이터 벌크업

페블러스는 독자적인 정밀 타기팅 기법을 통해 데이터가 부족한 곳을 찾아 최적 볼륨의 합성데이터를 추가하여 인공지능의 성능을 개선합니다.

임베딩 공간에서의 데이터 분포

서로 다른 클러스터 간의 경계 지점 포착

타기팅

경계 지점 타기팅 기법

밀도 타기팅 기법

벌크업

경계 지점 중심 벌크업

밀도가 낮은 지점 중심으로 벌크업

데이터 벌크업을 통한 분류 성능 개선 사례

실제 데이터셋을 진단하여 정밀 타기팅 방법으로 약 5%의 합성데이터를 추가하여 분류 모델과 학습 과정에 변화 없이 약 2%의 성능 향상을 얻은 예입니다.

Birds-450 데이터셋 원본

정밀타기팅 합성데이터

정밀 타기팅 합성데이터를 통한 AI 모델의 성능 개선

원본데이터
저밀도 타기팅 벌크업
경계 타기팅 벌크업

데이터 진단으로 발견한 각종 품질 문제를 개선 서비스로 해결하세요!

데이터 개선 서비스 신청하기