정보통신연구기구(NICT)은 연구용으로 공개한 음성 코퍼스에 본래 비공개인 보이스 체크용 음성 파일 115명분이 포함되어, 인명 등의 정보가 유출되었다고 발표했다. 주소나 연락처, 생년월일 등은 유출되지 않았다고 밝혔다.
음성 코퍼스는 음성 파일과 그에 대응하는 기록 등의 부가 정보로 구성된 패키지로, 음성 인식, 음성 합성, 번역, 화자 인식 등의 서비스 개발과 평가에 활용된다. NICT는 3월 12일 오후 3시경, 음성 합성용 일본어 복수 화자 음성 코퍼스를 연구용으로 공개했다. 다음날인 13일 오후 9시경, 공개 대상이 아닌 보이스 체크용 음성 파일 115명분이 잘못 공개된 데이터에 포함되었다는 사실이 외부 연구자의 지적으로 밝혀졌다.
이에 따라 14일 오전 9시경 코퍼스의 공개를 중단했으며, 새로운 접근이나 다운로드가 불가능한 상태로 만들었다. 현재까지 파일이 인터넷에 유포되거나 2차로 이용된 정보는 없다. 공개 기간 중 최대 12건의 접근이 있었을 가능성을 확인하고, 공개 시 안내된 곳에 데이터 이용 중지 및 삭제를 요청했다. 연락이 가능했던 대상자들로부터는 이미 삭제되었다는 답변을 받았다.
잘못 공개된 음성의 화자들에게는 개별적으로 사실 관계 설명과 사과를 진행하고 있다. 이번 사태를 계기로 NICT는 파일 공개 절차와 확인 체제의 재검토를 포함한 재발 방지책을 마련할 예정이다.