Diffusion 기반 생성형 AI 활용기/RVC 보컬 커버

대세 보컬 AI 간단 비교: So-Vits-SVC vs RVC 비교 (RVC 선택한 이유)

누군가의 이야기 2023. 7. 19. 16:17
728x90

 

보컬 AI를 이용해 학습 및 AI 커버곡 생성 등을 해보고 있다.

 

최근 가장 많이 쓰이는 보컬 AI 두 개를 아주 간략하게 비교해본다.

 

 

So-Vits-SVC

https://github.com/svc-develop-team/so-vits-svc

 

GitHub - svc-develop-team/so-vits-svc: SoftVC VITS Singing Voice Conversion

SoftVC VITS Singing Voice Conversion. Contribute to svc-develop-team/so-vits-svc development by creating an account on GitHub.

github.com

 

RVC

https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI

 

GitHub - RVC-Project/Retrieval-based-Voice-Conversion-WebUI: Voice data <= 10 mins can also be used to train a good VC model!

Voice data <= 10 mins can also be used to train a good VC model! - GitHub - RVC-Project/Retrieval-based-Voice-Conversion-WebUI: Voice data <= 10 mins can also be used to train a good VC model!

github.com

 

 

지원하는 운영체제


So-Vits-SVC: 윈도우 

 

RVC: 윈도우 리눅스

 

맥에서도 이용 가능한데, 아직은 중국어로 되어 있어 이용하기 불편한가보더라. 아래 링크

https://github.com/w-okada/voice-changer

 

 

요구사항 (그래픽카드 사양)


So-Vits-SVC는 적어도 10GB VRAM

RVC는 4GB VRAM을 필요로 한다.

 

그래서 같은 그래픽카드를 사용한다고 했을 때, RVC의 학습 속도가 더 빠르다는 장점이 있다.

 

이건 여담인데, 코랩으로 학습을 하는 건 완전 자유롭지는 않더라

 

코랩 프로 구독해서 사용 중인데, 월마다 컴퓨팅 자원 100개씩 제공되는 걸 3일만에 다 썼다 :(

 

그저 RVC로 모델 2개 학습했을 뿐인데.. (에포크를 많이 돌리긴 했다.)

 

좋은 모델 만들기 위해선 GPU 소모가 많은 편이니 로컬 환경에 설치하면 더 좋지 않을까

 

 

 

인터페이스 (UI)


So-Vits-SVC
RVC

위가 So-Vits-SVC, 로컬 인터페이스 형식이고, 아래가 RVC, Web UI 형식이다.

 

 

직관적으로 RVC가 사용하기 더 쉬운 형태이기도 하고,

 

RVC UI에는 보컬 분리 인공지능 (Ultimate Vocal Remover) 도 내장되어 있고, 기능이 더 많아 편리하다고 한다.

 

 

결론


원래 So-Vits-SVC 가 더 보편적으로 이용되어 왔기에, 사용자가 더 많은데

 

최근 들어선 RVC 이용하는 사용자들 수가 빠르게 늘고 있는 추세라고 한다.

 

기저에 깔린 모델 원리도 제법 다르기 때문에, 뭐가 더 낫다고 할 순 없겠지만

 

본인은 이용하기에 편리한 것도 매우 중요한 요소라 생각하기 때문에 RVC 사용해서 AI 커버곡 생성해보고 있다.

728x90