“젊은 시절 교사였던 저희 어머니가 패스트푸드점 키오스크에서 주문하는 법을 몰라 포기하고 돌아오셨다고 하네요. 기계를 쓰는 이유는 많겠지만 이런 기술에 어르신들은 소외되니 안타깝습니다.” 최근 SNS를 통해 회자되며 많은 이용자 사이에 공감을 산 게시글입니다.
사람을 돕기 위해 도입된 기술이지만 결국 소외되는 집단을 낳았다는 지적입니다. 하지만 기술은 또 다른 기술로 극복 가능합니다. 예컨대 이렇게 불친절한 사용자 경험(UX), 사용자 인터페이스(UI)를 챗봇 기능을 탑재한 디지털 휴먼이 대체한다면 불편을 크게 줄일 수 있을 것입니다. 메뉴만 나열한 채 빠른 입력을 종용하는 차가운 ‘기계 직원’ 대신 눈으로 웃어주고, 말도 걸어주는 따뜻한 ‘디지털 휴먼’이 기계가 낯선 사용자들에겐 더 친절한 판매 사원이 돼줄 가능성이 큽니다. 디지털 휴먼은 딥러닝 네트워크를 활용해 이미지와 영상을 합성하는 ‘딥페이크(deepfake)’ 기술을 바탕으로 합니다. 그리고 이는 합성 데이터(synthetic data)가 기반으로 삼는 기술이기도 합니다.
DBR가 이번 호 스페셜 리포트 주제로 선정한 ‘합성 데이터’는 실제로 촬영한 이미지 등 현실의 데이터가 아니라 AI 학습을 목적으로 만들어낸 가상 데이터, 즉 ‘진짜’가 아닌 ‘가짜(fake)’ 데이터를 뜻합니다. 실제 데이터와 통계적 특성이 유사해 실제 데이터를 분석한 결과와 유사한 결과를 얻을 수 있다는 뜻에서 ‘재현 데이터’로 번역되기도 합니다. 합성 데이터는 개인정보 보호 등의 이유로 실제 데이터에 접근하기 어려울 때나 학습에 사용될 실제 데이터의 양이 적을 때 사용됩니다.
합성 데이터는 지금은 용어 자체마저 생소한 사람들도 앞으로는 꼭 기억해야 할 AI 시대의 핵심 기술로 꼽힙니다. 이에 올해 MIT테크놀로지리뷰는 ‘10대 혁신 기술’ 중 하나로 합성 데이터를 선정했습니다. 한편 지난해 말 메타(구 페이스북)와 인스타카트가 합성 데이터 생성 기업을 조용히 인수하는 등 테크 공룡들의 비밀 병기도 되고 있습니다. 앞서 키오스크에서 활용될 수 있는 사례로 지적한 디지털 휴먼 시장만 해도 2020년 전 세계적으로 약 10조 원 규모였던 것이 2030년 527조 원 이상으로 연평균 약 46.4% 성장할 것으로 예상됩니다. 딥러닝 영상 생성 솔루션 기업인 ‘클레온’의 진승혁 대표는 연예 및 방송은 물론 교육, 고객 서비스 등 다양한 분야에서의 적용 가능성을 확신하고 창업을 결심했습니다. 진 대표는 “수험생 신분이었을 때 인터넷 강의를 졸며 듣던 중 ‘아, 이 강사님이 배우 수지였으면 500%는 더 집중할 수 있지 않을까’라고 생각한 것이 기술 개발의 단초가 됐다”고 고백하기도 했습니다.
특히 의료 분야에서 합성 데이터는 이미 큰 활약을 보이고 있습니다. 예컨대 위암을 진단하는 AI엔진이 95%가량의 정확도를 보이기 위해서는 20만 개 이상의 위암 환자 내시경이 필요합니다. 하지만 환자의 개인정보 보호 등의 이유로 이렇게 많은 데이터를 확보하기도 어렵고, 어렵게 구한다하더라도 암 부위와 정상 부위를 인간이 일일이 구분해줘야 합니다. 그러나 인공적으로 데이터를 생성할 경우 비용은 약 100분의 1 수준으로까지 줄어들 수 있고 시간 역시 수개월에서 하루 이틀 정도로 크게 단축할 수 있습니다. 특히 합성 데이터는 범죄 예측을 할 때 종종 발생해 논란이 된 인종 편향을 24%에서 1%로 줄이는 등 AI의 신뢰성을 해치는 편향 요소를 줄이는 데도 유효하다는 평가를 받고 있습니다.
연구 진실성, 데이터의 정확도와 안전도, 포르노물과 범죄에 활용되는 일부 딥페이크 기술 등 다양한 측면에서 합성 데이터를 둘러싼 우려가 잔존한 것은 사실입니다. 하지만 제도적 안전장치를 마련한다면 실보다는 득이 훨씬 많은 기술이라는 데 많은 업계 관계자는 동의합니다. IT 조사 기관인 가트너가 2030년이 되면 AI에 사용되는 데이터 대부분이 인위적으로 생성될 것으로 예상할 정도로 이미 합성 데이터는 ‘대세’가 되고 있기도 합니다.
마침 이번 호부터 이경 소설가가 연재하는 SF 엽편소설 ‘우리가 만날 세계’ 1화의 소재도 AI와 VR(가상 현실) 기술을 활용해 대화 상대의 얼굴과 목소리를 바꾸는 신박한 미래 기기입니다. 실제 현실 속에서나 상상력 속에서 모두 ‘With AI(AI와의 동거)’로 스며드는 시기, ‘진짜’보다 더 큰 위력을 발휘할 ‘가짜’ 데이터의 가능성을 가늠해보시길 바랍니다.
김현진 편집장•경영학박사[email protected]