알바몬에서 검색을 하다 발견한 데이터 수집 프로젝트입니다. 주기적으로 채용 사이트를 둘러보지만 30개 정도 지원을 하면 하나의 프로젝트에 참여하는 것 같습니다. 점점 바늘구멍으로 들어가네요.
지원 조건
AI 대화 음성인식 성능 향상을 위한 데이터 수집의 일환으로 전화 통화 음성 녹음자 모집합니다.
지인과의 전화통화 녹음
- 지인과 전화통화시에 '통화 녹음' 버튼 클릭 후 저장된 파일을 전송. (안드로이드 스마트폰에서 기본 제공되는 녹음 기능을 사용해야 함)
- 파일확장자가 m4a 나 3gp로 나와야 정상적인 파일입니다.
- 대화하는 두 사람 중 한 분이 아이폰이거나 유선전화인 건 상관없음.
- 대화 주제 : 관심사, 학과 전공, 대학생활, 취미생활, 회사 업무, 정치, 경제, 재테크(주식), 부동산, 금융, 보험, 예술(영화/연극/악 등), 스포츠, Ai, IT 관련 주제 등 약간의 전문적인 내용의 대화가 반드시 포함되어야 합니다. 전문용어를 사용한 대화를 선호합니다.
- 스토어에서 다운로드한 녹음 어플로 저장된 파일은 안됩니다.
- 녹음 내용이 유의사항에 포함된 내용인 경우 삭제 및 재녹음 요청 할 수도 있습니다.
근무 조건
1시간 ~ 3시간 분량의 지인과의 전화통화 녹음 10분 녹음 당 8,000원, 1시간 48,000원, 2시간 96,000원, 3시간 144,000원
- 사투리 사용자 환영. 장소 구애 없이 핸드폰으로 전화통화 녹음 보내주신 녹음파일 중 중복 파일이나, 대화 내용이 같은 파일은 삭제합니다.(내용 확인 후 삭제 및 재녹음 진행합니다.)
- 비용은 데이터 확인 후 1주일 이내 입금해 드립니다. 녹음된 데이터 확인 후 재녹음 요청할 수도 있습니다. 2022년 1월 ~ 현재까지 전화통화 녹음 참여자는 중복 참여 불가합니다.
- 전화통화 녹음 시간은 최대 3시간입니다. 대화상대 1명 하고만 통화 시, 최대 녹음 인정 시간은 2시간입니다. 이때, 2시간 대화에 참여한 상대방은 이 프로젝트에 다시 참여하실 경우, 1시간만 참여하실 수 있습니다. 다양한 목소리를 수집하고자 합니다. 최대한 많은 지인과의 통화 녹음을 보내주세요.
데이터라벨링 종류/ 가공, 수집으로 세분화
데이터라벨링은 크게 두 가지 종류로 나눕니다. AI 교육에 사용될 자료를 수집하는 것과 이 수집된 자료를 가공하는 것이죠. 데이트 수집 먼저 수집을 다시 세분화하면 위와 같습니다. 수집은 사
trajectory.tistory.com
유의 사항
아래 내용이 녹음 파일에 포함된 경우 삭제 및 재녹음 요청합니다.
- 한 통화당 전문적인 대화의 내용이 전혀 없는 경우
- 개인식별 정보가 포함된 경우 (주민번호, 운전면허번호, 계좌번호 등)
- ARS 혹은 기계와의 통화 내용(사람과의 대화 내용이 아닌 경우)
- 대화 참여자 동의를 받을 수 없는 경우 (ex. 고객센터 상담원 등)
- 음성 왜곡 및 통화 품질 저하로 통화 내용을 알아듣기 어려운 경우.
- 통화 내용이 욕설 및 비속어가 대부분인 경우. - 통화 중 대화 없이 무음 상태가 지속되는 경우.
파일 제출 방법
제목 : 본인 이름 내용 : 본인이름_나이_성별_성장지역_전화번호_주민번호(뒷자리포함)_계좌번호_은행명 작성
통화 상대는 이름_나이_성별_성장지역만 작성 ===> 메일에서 개인정보는 바로 삭제하겠습니다.
동의서의 파일명은 "동의서-본인성함" * 꼭 상대방의 서명을 받아주셔야 합니다. 동의서, 녹음파일은 한 폴더에 넣어 압축해서 보내주세요.
녹음파일은 m4a 또는 3gp만 정상파일입니다. (어플에서 자르는 등의 수정은 절대 안 됩니다.)
녹음 시 유의 사항
중복지원 은 불가 합니다.(통화상 대도 마찬가지입니다.)
- 자연스러운 통화여야 합니다.
- 자동녹음설정 권장 (녹음어플사용금지, 아이폰 금지) ==> 자동녹음설정 해놓으시고 나중에 걸러내시는 게 가장 좋습니다.
- 통화시간도 내용도 다양함을 추구하며 절대 통화파일을 수정하거나, 잘라서 주시면 안 됩니다. (원본 파일 그대로 주세요.)
- 여러 가지 상황에서의 통화가 필요하기 때문에 10분 내외로 여러 번 통화하셔서 한꺼번에 보내주시면 됩니다. *
- 10분 넘는 게 많으면 되도록 짧은 것도 들어가게끔 다양하게 주세요. (모든 통화 파일을 10분 정도의 통화로 맞춰서 주시는 게 가장 어색해 보입니다.)
- 이런 대화는 자제해 주세요 ==> 고객센터나 대화 참여자가 판매 동의를 하지 않는 경우, 인터뷰식의 질의응답 통화, 상황극, 비몽사몽인 채로 통화해서 발음이 뭉개지거나 제대로 된 대화가 안 되는 경우 등.
이번 포스팅은 데이터라벨링 중에서 음성 수집에 관한 내용을 담아 봤습니다. 데이터라벨링 중에는 이런 것도 있다는 의미로 작성한 포스팅이며 이렇게 수집된 데이터는 전사를 거쳐 AI를 학습시키는 데 사용됩니다.
Cuboid 3D 데이터라벨링과 Point Cloud
학계에서 Point Cloud 데이터를 다루는 3D 인공지능은 최근 몇 년 사이 눈부신 발전을 이루었다. 덕분에 현재 3D 인공지능은 자율주행, HD 맵 제작, 로봇 주행, 3D 스캐닝, 3D 컨텐츠 개발 등 다양한 산
trajectory.tistory.com
'데이터라벨링' 카테고리의 다른 글
머신러닝과 선형회귀, 선형회귀 예측 (1) | 2023.05.17 |
---|---|
딥러닝은 뉴런과 시냅스의 병렬연산을 컴퓨터로 재현하는 방법 (0) | 2023.05.16 |
시니어의 상태가 드러나는 문장 작성하기 프로젝트 (0) | 2023.05.15 |
Cuboid 3D 데이터라벨링과 Point Cloud (0) | 2023.05.14 |
새로운 게임 체인저, 텍스트 생성 AI와 그 파급력 (0) | 2023.05.14 |
댓글