인공지능 학습용 데이터 구축 사업

  1. 사업 목표

코로나19로 촉발된 경기침체 대응을 위한 대규모 일자리 창출

중소벤처, 스타트업, 학계 등 민간의 인공지능 기술개발, 인공지능 응용서비스제품 개발 촉진, 국가 인공지능산업 육성

  1. 배경 및 필요성

배경

o 포스트 코로나와 AI 시대의 핵심 자원은 데이터

코로나19 대응에서 우리의 디지털 역량잠재력을 보여준 계기였으며, 마스크 앱 사례처럼 양질의 데이터 확보·활용국가 경쟁력 결정

– 특히, AI 경쟁력의 핵심인 대규모 데이터를 단기간에 확보하여 AI 선도국가로 도약하는 한편, 일자리 창출과 경제성장 동력 확보 필요

o 현실은 데이터 빈곤 국가, 경쟁국 대비 AI 경쟁력은 뒤쳐진 상황

AI모델 성능 향상에 필요한 AI 학습용 데이터(원천데이터 포함)는 미국·중국 등에 비해 절대적으로 부족

o “텍스트 인지 데이터” : 3억 단어 활용 구축 vs 구글 XLNet 330억 단어 활용 데이터 구축

o “대용량 동영상” : 500시간 데이터 구축 예정 vs YouTube 8M 35만시간 데이터 보유

o “안면 이미지 데이터” : 천명의 이미지 구축 vs 중국 14억명의 이미지 데이터 보유

 

오랜 시간많은 비용이 발생하는 AI 학습용 데이터 구축은 AI 분야 중소·벤처기업에게 큰 부담으로 작용, 제품·서비스 개발에 애로

* 인공지능 개발 과정에서 데이터 수집·정제·가공 업무가 약 80% 이상 차지

o 이번 AI 학습용 데이터 추경사업을 통해 AI 수요에 본격 대응

– 중소․벤처․스타트업 등 기업 수요 반영, 기존 데이터와 AI기술 간 융합 촉진, 기존 산업의 차별적 부가가치 창출이 가능한 과제 추진

– 크라우드소싱을 적용하여 일자리 창출은 물론, 국민 누구나 손쉽게 AI를 활용하여 새로운 비즈니스에 도전하고 전문가로 도약할 수 있는 기회 제공

필요성

o AI 선도국들은 AI 등 4차 산업혁명 주도기술을 활용해 미래 산업 변화의 주도권을 선도하기 위해 국가차원의 지원 적극 추진 중

(미국) 연방기관은 AI 연구를 촉진하기 위해 AI 학습용 훈련 데이터를 공개하고 가이드라인을 거쳐 공개할 것을 권유(AI 기반 준비를 위한 권고안(NSTC), ‘16년)

* 구글 open Image(900만장, 객체인식), MS-Celeb(10만장, 안면인식), UC버클리 BDD100K(10만건, 자율주행), Human Motion DB(6천건, 동작인식) 등

(영국) 공공 데이터를 기계학습에 적합한 포맷으로 개방, 데이터 공유 및 안정성 확보, 데이터연계를 위한 프레임워크 구축 추진(Industrial strategy, ‘18)

o 반면 국내 중소·벤처기업들은 AI 학습용 데이터를 자체 구축하기에 많은 시간과 비용이 소요되고 원천 데이터 확보의 어려움 호소

* (현장의 의견) 데이터 확보가 쉽지 않을 뿐만 아니라 데이터 가공에도 많은 비용이 소요되므로 정부 주도의 데이터 구축보급 필요

⇨ 민간‧공공의 수요를 기반으로 양질의 AI 데이터를 대규모로 구축공개하고 활용을 촉진하여 AI데이터 선순환 생태계 조성

댓글 남기기