본문 바로가기
데이터라벨링

2023년 "인공지능 데이터 구축 사업" 동향과 변화

by 그린망고 2023. 4. 16.
반응형

정부의 "인공지능 데이터 구축 사업"이  5개년을 목표로 출발하여 23년에 3년 차가 되었습니다.

며칠 전에 발표한 확정안을 토대로 예산의 규모와 과제의 규모 등을 알아보겠습니다.

 

1. 사업규모 및 운영 부문

정부 지원 예산 및 과제 규모가 대폭 축소되었습니다.

인공지능 데이터 구축 사업 예산
인공지능 데이터 구축 사업 예산과 갯수 비교

22년도에 비해 예산과 데이터의 종류와 개수 모두 절반이상 줄었으며 이 마저도 수정을 거듭하며 결국 2천억대 초반까지 감축했습니다.

 

 

연도별 데이터 규모를 보면 21년에 190종, 22년에는 310종으로 가장 많은 데이터를 수집하였고 23년은 작년의 절반 수준입니다.

22년에는 1,2,3차로 나누어 진행할 만큼 대규모 사업이 많았고 23년에는 규모가 줄어든 걸 반영해서 단 1회로 진행합니다.

  • 일정의 변화

사업 초반 일정의 지연으로 전체 일정이 변화가 올 것이라 생각하고 작년에 비해 3개월가량 늦게 시작되는 만큼 작업시간도 줄어들어 개별과제는 약 1개월~3개월로 끝날 것으로 예상됩니다.

인공지능 학습데이터 구축사업 예산 변화
인공지능 학습 데이터 구축사업 예산 변화

2. 과제 부문

지정 사업을 들여다보면 고도화 및 다년도 연속과제와 지역과제의 비중이 높아진 걸 확인할 수 있는데요. 이전 과제의 고도화 작업은 약 10여 종이고 봄, 여름, 가을, 겨울 4계절이 필요한 농작물 데이터는 약 12종이며 2~3년에 걸쳐 수행한다고 합니다. 지역과제는 20종으로 가장 많이 늘었네요.

 

기존에 주류를 이루던 작업들은 축소되어 자율주행, 음성녹음, 음성전사, 문장생성/발화와 가장 쉽게 접할 수 있는 비박스 단순 작업은 찾아보기가 힘들고 Chat GPT의 열풍으로 이와 관련된 초거대 AI 지원용 말뭉치와 자연어 부문 과제가 상대적으로 높아졌다는 걸 알 수 있습니다.

정부 발표문
정부 발표문

3. 기타

정부 인식의 변화에 따른 정책 변화

"정부의 AI 학습 데이터 구축. 고도화 방안"에 따르면 정부는 "데이터 댐 구축 5개년 사업"이 종료되는 25년 이후의 생태계를 민간에게 맞긴다는 의사를 밝혔습니다. 현 정부는 코로나 시국 일자리 창출이라는 명목아래 예산 낭비 및 선심성 사업으로 인식하고 구축 완료된 데이터셋이 활용성 면에서 비효율적이라는 판단을 하고 있습니다.

ai

이미 기존 데이터 라벨러들은 강화된 조건을 경험하고 있으며 프로젝트 진입을 하려면 치열한 경쟁을 하고, 자격증, 경력 등을 두루 갖추고도 까다로운 사전테스트에서 만점을 받지 못해 여러 프로젝트에서 탈락하고 있습니다.

급속도로 많아진 인원과 축소된 정부의 지원으로 앞으로 데이터라벨링은 더욱 전문성을 요구할 것이라고 생각됩니다.

 

 

 

아래 파일은 23년도 정부가 발표한 "인공지능 학습 데이터 구축사업" 최종 공고문 입니다.

붙임1._2023년도_인공지능_학습용_데이터_구축_지원_사업_공고문.hwp
0.78MB
23년도 수행계획서 등 서식_최종.hwp
12.09MB

 

 

 

 

728x90
반응형

댓글