2024년부터 초거대 AI 확산 생태계 조성 사업이 시작될 예정입니다. 이에 맞춰 2023년까지 정부에서 진행해 온 'AI 학습용 데이터 구축사업'의 예산이 0원입니다. 24년 데이터 라벨링 시장의 전망은 어떨지 예측해 보겠습니다. 관련 자료는 글 하단에 첨부합니다.
초거대 AI 확산 생태계 조성 사업
2022년에 챗GPT를 포함한 생성형 AI가 등장하면서, 마이크로소프트의 코파일럿과 네이버의 하이퍼 크로버 X 등이 급속히 발전하여 초거대 AI 중심의 AI 산업 재편이 이루어지고 있습니다. 생성형 AI는 기존 콘텐츠를 활용하고 학습하여 새로운 콘텐츠를 만들어내는 기술을 말합니다. 이에 따라 2024년부터는 AI 학습용 데이터 구축 사업을 종료하고 초거대 AI 확산 생태계 조성 사업으로 대체될 예정입니다. 자세한 내용은 한국지능정보사회진흥원의 공지사항을 확인해 주세요.
사업 규모
초대규모 AI 확산 생태계 조성 사업은 504억 원을 투입하여 초대규모 AI 데이터를 구축하고, 54억 원을 투자하여 AI 데이터의 활용을 촉진하는 프로젝트입니다. 작년의 2805억 원 국가 예산과 비교하면 많은 축소가 이루어졌습니다. 새로 진입한 라벨러를 포용하기에는 예산이 부족한 것으로 판단됩니다. 확정된 과제는 4월 중에 발표되며, 사업 기간은 24년 5월부터 12월 30일까지로 확정되었습니다. 작년에 비해 빠른 진행이 예상됩니다.
10개 분야 데이터 구축
한국지능정보사회진흥원은 법률, 보건의료, 행정사무, 교육, 미디어 콘텐츠, 제조 로보틱스, 교통 물류, 국방, 재난 안전 환경, 농림 축수산 등 다양한 분야의 데이터를 구축하고 한다고 합니다. 이 데이터를 통해 법에 대한 자연어 처리 모델 사전학습, 필수 의료 지식 및 특정 질환에 대한 확정 데이터, 글쓰기 평가 데이터, 음성 데이터, 로봇 데이터 등 각 분야의 전문 지식을 원하고 있음을 확인할 수 있습니다. 이를 통해서 데이터 라벨링은 전문가의 영역으로 발전하고 있으며, 산업의 방향이 지속적으로 변화하고 있음을 인식하고 시작하셔야 합니다.
단가는?
정부 지원 금액도 줄어들었기 때문에 단가 또한 낮아지고 있는 게 사실입니다. 라벨링도 전문 영역으로 발전해 가면서 비전문 영역인 단순 데이터 라벨링에 대한 단가도 더욱 낮아지고 있는데요. 데이터 라벨링은 일자리가 1년 내내 있는 것이 아니고 민간 기업에서 라벨링으로 예산을 책정해 사업을 진행해야 라벨러가 일을 할 수 있는 것이기 때문에 일의 양을 예측할 수 없습니다. 다행히 경험해 본 적은 없지만, 체계가 없는 업체들, 급여가 밀리는 업체들, 계약서만 여러 번 작성하는 업체들과 같이 다양한 이슈들도 존재하고 있었습니다. 데이터 라벨링 정부 사업이 끝난 비수기 기간 동안 데이터 라벨링을 그만둔 분들이 많지만 올해 낮은 예산으로 일자리 경쟁은 여전히 치열할 것으로 예상이 됩니다.
재택 부업?
데이터 라벨링을 소개하면서 가장 장점이라고 생각했던 부분이 재택으로 할 수 있는 부업이라는 것이었는데요. 코로나 이후 출퇴근 일자리가 많은 부분을 차지하고 있습니다. 출퇴근이 강남, 판교, 가산 디지털 단지와 같이 서울 중심이다 보니 지방에 있는 분들은 도전해 보지 못하고 수도권에 살아도 출퇴근에 많은 시간이 소요되기 때문에 엄두를 내지 못하고 있습니다. 출퇴근 일자리는 지원할 생각이 없고 여전히 재택으로 참여 가능한 것만 도전해 보려고 해도 이것조차 경쟁과 난이도 높은 사전 테스트로 걱정이 되는 것도 사실입니다.
마무리
이제는 데이터 라벨링이 누구나 할 수 있던 단순 바운딩을 넘어서 특정 분야의 전문 지식이 필요하기 때문에 더욱더 전문화가 되어 가는 것 같습니다. 이에 따라 단가는 보장받을 수 있지 않을까? 하는 기대를 해보지만 반면에 데이터 라벨링 부업에 대한 진입에 어려움이 생겼다고 생각합니다. 법률, 의학 지식과 언어 관련 라벨링에는 전문가가 아니면 참여하기 어렵기 때문입니다. 22년, 23년 데이터 라벨링으로 수익을 내고 있지만 더 문이 좁아지는 것 같고 24년 수익은 더더욱 예상할 수가 없습니다.
'데이터라벨링' 카테고리의 다른 글
자연어 처리 프로젝트 텍스트 개체명 인식 NER 데이터라벨링 (5) | 2024.11.04 |
---|---|
틱택코리아 Tictag 데이터 라벨링 플랫폼 앱 (0) | 2024.06.20 |
데이터 라벨링을 시작하시는 분들에게 입문에 대하여 레벨링 후기 (1) | 2024.02.02 |
데이터 라벨링 2023년 느낀 점과 경험 정리 (1) | 2024.01.20 |
뉴워커 온라인 데이터 구축 설문조사 대상자 모집 (0) | 2023.12.12 |
댓글