대세 보컬 AI 간단 비교: So-Vits-SVC vs RVC 비교 (RVC 선택한 이유)
보컬 AI를 이용해 학습 및 AI 커버곡 생성 등을 해보고 있다.
최근 가장 많이 쓰이는 보컬 AI 두 개를 아주 간략하게 비교해본다.
So-Vits-SVC
https://github.com/svc-develop-team/so-vits-svc
GitHub - svc-develop-team/so-vits-svc: SoftVC VITS Singing Voice Conversion
SoftVC VITS Singing Voice Conversion. Contribute to svc-develop-team/so-vits-svc development by creating an account on GitHub.
github.com
RVC
https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI
GitHub - RVC-Project/Retrieval-based-Voice-Conversion-WebUI: Voice data <= 10 mins can also be used to train a good VC model!
Voice data <= 10 mins can also be used to train a good VC model! - GitHub - RVC-Project/Retrieval-based-Voice-Conversion-WebUI: Voice data <= 10 mins can also be used to train a good VC model!
github.com
지원하는 운영체제
So-Vits-SVC: 윈도우
RVC: 윈도우 리눅스
맥에서도 이용 가능한데, 아직은 중국어로 되어 있어 이용하기 불편한가보더라. 아래 링크
https://github.com/w-okada/voice-changer
요구사항 (그래픽카드 사양)
So-Vits-SVC는 적어도 10GB VRAM
RVC는 4GB VRAM을 필요로 한다.
그래서 같은 그래픽카드를 사용한다고 했을 때, RVC의 학습 속도가 더 빠르다는 장점이 있다.
이건 여담인데, 코랩으로 학습을 하는 건 완전 자유롭지는 않더라
코랩 프로 구독해서 사용 중인데, 월마다 컴퓨팅 자원 100개씩 제공되는 걸 3일만에 다 썼다 :(
그저 RVC로 모델 2개 학습했을 뿐인데.. (에포크를 많이 돌리긴 했다.)
좋은 모델 만들기 위해선 GPU 소모가 많은 편이니 로컬 환경에 설치하면 더 좋지 않을까
인터페이스 (UI)
위가 So-Vits-SVC, 로컬 인터페이스 형식이고, 아래가 RVC, Web UI 형식이다.
직관적으로 RVC가 사용하기 더 쉬운 형태이기도 하고,
RVC UI에는 보컬 분리 인공지능 (Ultimate Vocal Remover) 도 내장되어 있고, 기능이 더 많아 편리하다고 한다.
결론
원래 So-Vits-SVC 가 더 보편적으로 이용되어 왔기에, 사용자가 더 많은데
최근 들어선 RVC 이용하는 사용자들 수가 빠르게 늘고 있는 추세라고 한다.
기저에 깔린 모델 원리도 제법 다르기 때문에, 뭐가 더 낫다고 할 순 없겠지만
본인은 이용하기에 편리한 것도 매우 중요한 요소라 생각하기 때문에 RVC 사용해서 AI 커버곡 생성해보고 있다.