Project 배경

 

2007년도 Communication Signal Processing 강의 (실제 내용은 Array Signal Processing강의 였지요)에 실시했던 프로젝트입니다.

NTT Docomo Communication Science Lab.Shoko Araki 라는 분이 ICASSP 2007에 발표했던 논문을 mimic하는 프로젝트였습니다. Array Signal Processing이라는 것이 상당히 오래된 학문이라 그런 오래된 이론만 가르치는 것은 큰 의미가 없을 것 같다는 생각을 했었구요. 그래서 가장 최근의 논문 중 특정환경에서 어느 정도 잘되는 것이 검증된 Microphone Array 기술 중 하나를 실험하도록 유도하고 싶었습니다. 그래서 선택한 것이 Shoko Araki의 Blind Speech Separation in a Meeting Situation with Maximum SNR Beamformers (ICASSP 2007)논문이었습니다. 2007년도 강의에 2007년도 논문을 쓴 것이지요. 하지만 이 논문결과는 이미 ICASSP학회 발표 때 데모를 본 상태였고, 특정 상황에서 잘 동작하는 것은 확인하였기 때문에 부담없이 프로젝트를 진행시켰습니다. 혹시나 하여 Shoko Araki 씨에게 데모 자료를 요청해서 받아서 다시 한번 확인했었는데 지금은 데모자료(여기서 확인가능. 일본어로 Internet Explorer만 가능하다고 써 있는 듯.)를 공개하였네요. 결과는? 학생들이 잘 따라주어 좋은 결과를 내 주었습니다.

 

Project 설명

 

  1. 목적 : 3명이 회의를 하고 있다고 가정할 때, 3명의 목소리를 각각 따로 저장할 수 있게 해주는 시스템입니다. 추후 음성인식기 등과 연동되면 참석자별로 dictation도 가능하겠지요. (IDIAP Research Institute에서도 비슷한 프로젝트를 진행했던 것으로 압니다.)

     

  2. 실험데이터 취득

    Project에 사용될 Data는 실제 강의실에서 녹음 하였습니다. 3명의 학생이 직접 참여하여 Data를 수집하였는데, 녹음 3번만에 제가 okay싸인을 내어주었지요 ^^ 고생하신 학생들에게 이자리를 빌어 다시 감사를. 다음 그림은 녹음할 때 Talker의 위치 및 Array Geometry에 대한 그림입니다. 최대한 좋은 결과를 얻을 수 있도록 Talker를 많이 떨어뜨려 두었습니다. Mic 간격은 4cm로 그리 많이 떨어지지 않은 환경입니다.

     

     

    한번 Data를 들어보시겠습니까? ^^ 3명의 Talker가 자연스럽게(?) 섞여서 들릴 것입니다. Mic 1에서의 신호를 들리도록 하겠습니다.



     

     

    더 듣고 싶으신 분들을 위해 이 때 사용했던 녹음한 파일을 공유합니다.

     


    아래 그림은 누가 언제 말을 했는지 알 수 있게끔 보여줍니다. 학생들이 눈으로 보고 자른 데이터입니다. (수고해준 학생에게 박수를!) 각각의 화자가 말하는 구간들을 한눈에 보기 편하게 만들어주었지요. 대부분 따로 말을 하지만 같이 말하는 구간도 아주 살짝 있습니다. 원래는 같이 말하는 구간을 만들려고 했는데 대본없이 데이터를 녹음하다보니 이런일이 발생하였네요. 다음에 이런 녹음을 할 일이 있으면 꼭 대본을 만들어두고 진행해야겠습니다.

     

     

    마지막으로 사용된 대본입니다. (일단 말하고 난 뒤에 학생들이 적은 거라 ?? 도 보이네요 ^^ 제가 녹음준비를 치밀하게 하지 못한 탓이겠죠 ㅠㅠ)

     

     

Project 결과

 

학생들은 팀을 짜서 본 논문을 구현했습니다. Beamformer, Direction Finding, Clustering, VAD part 등을 각각 독자적으로 책임지게 하여 노는(?) 학생이 없도록 하였습니다. 그 중 가장 잘한 팀의 결과를 보여드리지요. 팀원 4명이서 각각 아래의 4 block들 중 하나씩 맡아서 구현을 하였습니다.

 

한번 결과를 구경해 보실까요?

Talker 1만 추출한 결과입니다.



Talker 2만 추출한 결과입니다.



Talker 3만 추출한 결과입니다.



 

위의 녹음 데이터와 비교해서 들으면 분리가 되고 있음을 알 수 있습니다. Shoko Araki의 데모와 비교해보는 것도 재미있을 듯 합니다. 물론 저자의 데모이니까 훨씬 잘되겠지요 ^^

프로젝트 하느라 상당히 많은 시간을 썼을텐데 학생들이 많은 것을 얻었기를 희망합니다.

+ Recent posts