이 글은 MIT 슬론 매니지먼트 리뷰(SMR) 2022년 겨울 호에 실린 ‘The Real Deal About Synthetic Data’를 번역한 것입니다.
Article at a Glance
합성 데이터의 뚜렷한 이점에도 불구하고 실제 이용하는 건 까다롭다. 합성 데이터 생성 프로세스가 극도로 어렵고 AI 분야의 최신 지식으로 무장한 전문가들을 필요로 하기 때문이다. 또한 합성 데이터를 평가하는 일도 매우 복잡하고, 데이터에 어떤 변수가 포함돼 있는지에 따라 평가 기준이 모두 달라져야 한다. 합성 데이터의 정확성을 평가하는 데 도구, 체계, 기준이 필요한 이유다. 부정확한 합성 데이터를 사용할 경우 심각한 부작용이 생길 수 있다. 규제당국이 문제 삼을 여지도 있고, 악의적 주체가 취약점을 파고들어 원데이터에 담긴 특정 인물 정보를 식별할 수 있으며, 데이터의 편향이 오히려 강화될 수도 있다.
인공지능 모델을 훈련하거나 인사이트를 얻기 위해 데이터가 필요할 때 현실의 데이터에 접근하는 게 늘 쉽지만은 않다. 하지만 원데이터를 꼭 빼닮은 데이터세트를 생성하는 신기술을 이용하면 이런 어려움을 해소할 수 있다.
데이터는 고급 애널리틱스와 머신러닝 이니셔티브의 발전을 이끄는 핵심 연료다. 하지만 개인정보 보호와 프로세스 문제를 둘 다 고려해야 하기 때문에 필요한 데이터를 손에 넣는 게 결코 쉬운 일은 아니다. 그런데 여기 합성 데이터라는 새로운 돌파구가 열렸다. 합성 데이터는 실제 세계에서 얻은 데이터와는 다른 방식으로 공유되고 활용된다. 물론 합성 데이터 이용에는 여러 위험이 따르고, 단점도 없지 않다. 또한 회사의 자원을 어디에, 어떻게 투자할지도 심사숙고해야 한다.
페르난도 루치니(Fernado Lucini)
액센츄어 어플라이드 인텔리전스(Accenture Applied Intelligence) 소속으로 전문 분야는 글로벌 데이터 사이언스와 머신러닝 엔지니어링