Diffusion 기반 생성형 AI 활용기/RVC 보컬 커버

[MR 제거, 보컬 추출] AI를 활용한 고품질 보컬과 음원 분리 초간단 가이드 : Ultimate Vocal Remover

누군가의 이야기 2023. 7. 15. 02:16
728x90

 

AI 커버곡이 인기..가 있는 건지 모르겠지만, 본인은 확실히 관심이 생긴 것 같다.

 

왠지 모르게 어설픈 결과물들을 보면서,

 

"내가 더 잘할 수 있을 것 같은데?" 라는 의문과 함께 도전

 

코랩 환경에서 RVC 모델을 활용해보려 하는데, 그 이전에 음원에서 MR제거는 필수 과정이기에 먼저 해보려고 한다.

 

 

https://github.com/Anjok07/ultimatevocalremovergui/tree/v5.5.0

 

GitHub - Anjok07/ultimatevocalremovergui: GUI for a Vocal Remover that uses Deep Neural Networks.

GUI for a Vocal Remover that uses Deep Neural Networks. - GitHub - Anjok07/ultimatevocalremovergui: GUI for a Vocal Remover that uses Deep Neural Networks.

github.com

위 링크에서 다운로드 받을 수 있다.

 

 

https://www.youtube.com/watch?v=jhWYkfF13lE 

위 영상을 참고하여 진행하였다.

 

 

보컬 추출 방법


링크로 들어가서 우측 하단 클릭

 

 

setup 파일 다운로그 받은 후 설치까지 마무리해준다.

 

 

실행 시키고 왼쪽 하단에 체크된 거 클릭해주고, 다운로드센터> 열쇠 클릭

 

 

VIP 모델을 사용할 수 있는 키라고 한다. 따라서 입력한 뒤 컨펌.

 

이후 MDX-NET에서 아래 모델들을 찾아 다운로드 해주면 된다.

 

Inst_full_292
Inst 3
Inst Main
Main_406
Main_427
Kim Inst
Kim Vocal 1

 

총 7가지 다운 받는다.

 

728x90

 

 

체크된 곳을 그림처럼 설정해주고, 인풋에 보컬 추출할 파일을 넣어준다.

아웃풋은 결과물이 저장될 폴더 지정

 

 

우측 이용가능한 모델에서, 앞서 다운로드 받은 7가지 모델 모두 선택해준 뒤

 

Start Processing 해주면 된다.

 

혹시 GPU 성능이 좋지 않아서 실행이 안되면, Vocals Only르 진행하면 될 거다.

 

.

 

결론


 

하드웨어 성능에 따라 다른 것 같지만, 내 노트북에선 한 곡당 20분 가까이 소요되었다.

 

사용되는 모델이 어떤 원리인지는 모르겠으나, 7개 모델이 앙상블 하기 때문에 오래 걸리는 것 같다.

 

AI 커버의 경우 추출된 보컬의 품질에 따라 결과물이 천차만별이기 때문에 중요한데,

 

추출 시간은 길었지만 매우 만족스러운 결과물을 얻었다.

 

시간을 줄이면 좋을 것 같지만, 결과 품질이 좋아서 건들지 않을 듯

 

 

 

 

728x90