본문 바로가기
데이터라벨링

음성 녹음 프로젝트 전화통화 녹음

by 그린망고 2023. 5. 15.
반응형

알바몬에서 검색을 하다 발견한 데이터 수집 프로젝트입니다. 주기적으로 채용 사이트를 둘러보지만 30개 정도 지원을 하면 하나의 프로젝트에 참여하는 것 같습니다. 점점 바늘구멍으로 들어가네요.

 

데이터 수집 참여자 모집 광고
데이터 수집 참여자 모집 광고

지원 조건

AI 대화 음성인식 성능 향상을 위한 데이터 수집의 일환으로 전화 통화 음성 녹음자 모집합니다.

지인과의 전화통화 녹음

  • 지인과 전화통화시에 '통화 녹음' 버튼 클릭 후 저장된 파일을 전송. (안드로이드 스마트폰에서 기본 제공되는 녹음 기능을 사용해야 함)
  • 파일확장자가 m4a 나 3gp로 나와야 정상적인 파일입니다.
  • 대화하는 두 사람 중 한 분이 아이폰이거나 유선전화인 건 상관없음.
  • 대화 주제 : 관심사, 학과 전공, 대학생활, 취미생활, 회사 업무, 정치, 경제, 재테크(주식), 부동산, 금융, 보험, 예술(영화/연극/악 등), 스포츠, Ai, IT 관련 주제 등 약간의 전문적인 내용의 대화가 반드시 포함되어야 합니다. 전문용어를 사용한 대화를 선호합니다.
  • 스토어에서 다운로드한 녹음 어플로 저장된 파일은 안됩니다.
  • 녹음 내용이 유의사항에 포함된 내용인 경우 삭제 및 재녹음 요청 할 수도 있습니다. 

근무 조건

1시간 ~ 3시간 분량의 지인과의 전화통화 녹음 10분 녹음 당 8,000원, 1시간 48,000원, 2시간 96,000원, 3시간 144,000원

  • 사투리 사용자 환영. 장소 구애 없이 핸드폰으로 전화통화 녹음 보내주신 녹음파일 중 중복 파일이나, 대화 내용이 같은 파일은 삭제합니다.(내용 확인 후 삭제 및 재녹음 진행합니다.)
  • 비용은 데이터 확인 후 1주일 이내 입금해 드립니다. 녹음된 데이터 확인 후 재녹음 요청할 수도 있습니다. 2022년 1월 ~ 현재까지 전화통화 녹음 참여자는 중복 참여 불가합니다.
  • 전화통화 녹음 시간은 최대 3시간입니다. 대화상대 1명 하고만 통화 시, 최대 녹음 인정 시간은 2시간입니다. 이때, 2시간 대화에 참여한 상대방은 이 프로젝트에 다시 참여하실 경우, 1시간만 참여하실 수 있습니다. 다양한 목소리를 수집하고자 합니다. 최대한 많은 지인과의 통화 녹음을 보내주세요.
 

데이터라벨링 종류/ 가공, 수집으로 세분화

데이터라벨링은 크게 두 가지 종류로 나눕니다. AI 교육에 사용될 자료를 수집하는 것과 이 수집된 자료를 가공하는 것이죠. 데이트 수집 먼저 수집을 다시 세분화하면 위와 같습니다. 수집은 사

trajectory.tistory.com

유의 사항

아래 내용이 녹음 파일에 포함된 경우 삭제 및 재녹음 요청합니다.

  • 한 통화당 전문적인 대화의 내용이 전혀 없는 경우
  • 개인식별 정보가 포함된 경우 (주민번호, 운전면허번호, 계좌번호 등)
  • ARS 혹은 기계와의 통화 내용(사람과의 대화 내용이 아닌 경우)
  • 대화 참여자 동의를 받을 수 없는 경우 (ex. 고객센터 상담원 등)
  • 음성 왜곡 및 통화 품질 저하로 통화 내용을 알아듣기 어려운 경우.
  • 통화 내용이 욕설 및 비속어가 대부분인 경우. - 통화 중 대화 없이 무음 상태가 지속되는 경우.

파일 제출 방법

제목 : 본인 이름 내용 : 본인이름_나이_성별_성장지역_전화번호_주민번호(뒷자리포함)_계좌번호_은행명 작성 

통화 상대는 이름_나이_성별_성장지역만 작성 ===> 메일에서 개인정보는 바로 삭제하겠습니다.

동의서의 파일명은 "동의서-본인성함" * 꼭 상대방의 서명을 받아주셔야 합니다.  동의서, 녹음파일은 한 폴더에 넣어 압축해서 보내주세요.

녹음파일은 m4a 또는 3gp만 정상파일입니다. (어플에서 자르는 등의 수정은 절대 안 됩니다.) 

마이크
마이크

녹음 시 유의 사항

중복지원 은 불가 합니다.(통화상 대도 마찬가지입니다.)

  • 자연스러운 통화여야 합니다.
  • 자동녹음설정 권장 (녹음어플사용금지, 아이폰 금지) ==> 자동녹음설정 해놓으시고 나중에 걸러내시는 게 가장 좋습니다.
  • 통화시간도 내용도 다양함을 추구하며 절대 통화파일을 수정하거나, 잘라서 주시면 안 됩니다. (원본 파일 그대로 주세요.)
  • 여러 가지 상황에서의 통화가 필요하기 때문에 10분 내외로 여러 번 통화하셔서 한꺼번에 보내주시면 됩니다. *
  • 10분 넘는 게 많으면 되도록 짧은 것도 들어가게끔 다양하게 주세요. (모든 통화 파일을 10분 정도의 통화로 맞춰서 주시는 게 가장 어색해 보입니다.)
  • 이런 대화는 자제해 주세요 ==> 고객센터나 대화 참여자가 판매 동의를 하지 않는 경우, 인터뷰식의 질의응답 통화, 상황극, 비몽사몽인 채로 통화해서 발음이 뭉개지거나 제대로 된 대화가 안 되는 경우 등.

이번 포스팅은 데이터라벨링 중에서 음성 수집에 관한 내용을 담아 봤습니다. 데이터라벨링 중에는 이런 것도 있다는 의미로 작성한 포스팅이며 이렇게 수집된 데이터는 전사를 거쳐 AI를 학습시키는 데 사용됩니다.

 

 

 

 

 

Cuboid 3D 데이터라벨링과 Point Cloud

학계에서 Point Cloud 데이터를 다루는 3D 인공지능은 최근 몇 년 사이 눈부신 발전을 이루었다. 덕분에 현재 3D 인공지능은 자율주행, HD 맵 제작, 로봇 주행, 3D 스캐닝, 3D 컨텐츠 개발 등 다양한 산

trajectory.tistory.com

 

반응형

댓글