Diffusion 기반 생성형 AI 활용기 34

[Text2Video] Sora 특징에 대해서 끄적끄적 |Diffusion Transformer, ViT, Latent Diffusion

https://youtu.be/S_QfBYnGKnc?list=LL 위 영상과 관련된 논문들을 보며 Sora의 공개된 특징을 짚어보았다.  Diffusion 모델과 Sora  AGI: Artificial General Intelligence (범용 인공지능) 오픈 AI는 Sora를 DALL-E 기술과 GPT 모델을 토대로 만들었다고 한다. 주로 이미지 생성 모델은 Diffusion 모델을 기반으로 만들어지는데,   위 그림처럼 완전한 노이즈 영상으로부터, 학습 데이터를 기반으로 단계적으로 노이즈를 제거하는 방식으로 영상을 생성한다. Sora의 차이점은 일반적인 Diffusion 모델과 달리, 인코딩 디코딩 과정에서 GPT 의 Transformer 구조를 활용했다는 것이다.  이 과정에서 이미지와 영상은 '..

[Diffusers] AnimateDiff 이용한 영상 생성 AI 만들기

https://huggingface.co/docs/diffusers/api/pipelines/animatediff Text-to-Video Generation with AnimateDiffWith the advance of text-to-image models (e.g., Stable Diffusion) and corresponding personalization techniques such as DreamBooth and LoRA, everyone can manifest their imagination into high-quality images at an affordable cost. Subsequently, there is a grehuggingface.co본문은 위 포스팅을..

최근 수준 높은 퀄리티를 보여주는 Text2Video AI 세 가지

아래 링크는 최근 동향을 잘 짚어준 삼성 SDS의 인사이트 리포트 https://www.samsungsds.com/kr/insights/genai_240403.html OpenAI의 Sora를 비롯한 동영상 생성형 AI 최근 동향 | 인사이트리포트 | 삼성SDS 동영상 생성 AI 서비스 Sora가 주목받는 이유는 무엇일까요? 그리고 Sora에 견줄만한 동영상 생성형 AI 서비스가 있는지 최근 동향에 대해 함께 살펴보겠습니다. www.samsungsds.com https://pika.art/ Pika The idea-to-video platform that sets your creativity in motion. pika.art https://runwayml.com/ai-tools/gen-2/ Gen-2 ..

[Text2Video] Diffusers 라이브러리 알아보기

https://huggingface.co/docs/diffusers/index Diffusers Specific pipeline examples Taking Diffusers Beyond Images huggingface.co 특정 도메인에 특화된 Text2Video 모델을 구현하고자 알아보던 중, Diffusion 모델 학습 및 추론에 특화된 라이브러리를 찾아서 알아보기로 한다. 주요 특징 1. DiffusionPipeline Pipelines Enable sliced attention computation. When this option is enabled, the attention module splits the input tensor in slices to compute attention in s..

Stable Diffusion 원리 아주 가볍게 살펴보기

https://youtu.be/yfPeevEbXS8?list=LL 유튜버 동빈나님의 'Stable Diffusion을 이용하여 사실적인 가짜 이미지를 만드는 방법과 원리 알아보기!' 영상을 시청하여 내용을 기억해두고자 짧게 정리해본다. 디퓨전 모델은 확산 현상을 기반으로 설계된 아이디어로, 노이즈 이미지에서 출발하여 하나의 완성된 이미지를 생성하도록 설계되었다. 노이즈 제거해서 새로운 이미지를 생성하는 프로세스는 기존의 GAN이나 오토인코더에서도 사용되되어 왔다. 이미지 생성 모델에서 CNN기반 아키텍처는 주로 U-Net이 자주 활용되는데, 입력으로 들어온 이미지의 특징 정보를 업스케일링 과정에서 재활용하기 때문에 보다 특징 정보를 보존한 채 복원할 수 있다. Fine tuning이란, 모델을 조금씩 미..

4. RVC Web UI 알아보기: 무엇이 좋은 데이터일까, 자연스러운 결과물을 얻기 위한 고찰

https://kosonkh7.tistory.com/168 2. RVC Web UI 알아보기: 모델 훈련 방법, AI 보컬 커버 생성 가이드 https://kosonkh7.tistory.com/166 1. RVC Web UI 알아보기: 설치 및 실행 방법 가이드 (따라만 하면 됨) 보컬 AI로 특정 가수가 다른 가수 곡을 커버하는 영상들을 관심있게 봐왔는데, 왠지 내가 더 잘 학습시 kosonkh7.tistory.com RVC를 통해 보컬 변환을 실습해본지 몇 주 정도 지났다. 마음에 드는 결과물도 많았고, 회심의 선곡이 뜻대로 결과물이 나오지 않기도 하였다. 보컬 변환은 정량적인 평가지표가 적용될 수 없는 분야이기 때문에, 어떠한 정석이 없이 모델마다, 레퍼런스가 되는 타겟 곡마다, 파라미터나 피쳐 셀..

[Vocal Data Preprocessing] 보컬 데이터에서 코러스 제거하는 방법 | Ultimate Vocal Remover 활용

https://kosonkh7.tistory.com/167 [MR 제거, 보컬 추출] AI를 활용한 고품질 보컬과 음원 분리 초간단 가이드 : Ultimate Vocal Remover AI 커버곡이 인기..가 있는 건지 모르겠지만, 본인은 확실히 관심이 생긴 것 같다. 왠지 모르게 어설픈 결과물들을 보면서, "내가 더 잘할 수 있을 것 같은데?" 라는 의문과 함께 도전 코랩 환경에 kosonkh7.tistory.com Ultimate Vocal Remover 다운로드 및 세팅 방법은 위 링크에서 다룬다. 보컬 AI 학습에 필요한 데이터를 구성할 때나 레퍼런스 데이터를 정할 때, 특히 노래의 경우 코러스를 제거하지 않으면 정상적인 결과를 기대할 수 없기 때문에 꼭 제거해주거나, 코러스나 화음이 없는 보컬 ..

대세 보컬 AI 간단 비교: So-Vits-SVC vs RVC 비교 (RVC 선택한 이유)

보컬 AI를 이용해 학습 및 AI 커버곡 생성 등을 해보고 있다. 최근 가장 많이 쓰이는 보컬 AI 두 개를 아주 간략하게 비교해본다. So-Vits-SVC https://github.com/svc-develop-team/so-vits-svc GitHub - svc-develop-team/so-vits-svc: SoftVC VITS Singing Voice Conversion SoftVC VITS Singing Voice Conversion. Contribute to svc-develop-team/so-vits-svc development by creating an account on GitHub. github.com RVC https://github.com/RVC-Project/Retrieval-bas..

[Echo Remove AI] 에코 제거하여 보컬 데이터 품질 높이기 | De Reverb HQ 활용 방법 및 한계점

AI 커버곡을 만들면서 가장 중요하다고 느꼈던 점은 역시 데이터였다. 모델 학습에 양질의 데이터가 중요하다는 건 몰라도 아는 사실이지만, 좋은 데이터 = 우선 에코가 적고 목소리가 또렷해야 될 거라 느꼈기 때문에, 데이터에 에코 많이 껴있으면 문제가 되겠더라 (결과물에서 파열음이 거슬리게 섞이는게 에코가 원인이 되지 않을까 추측) 어도비 등에서 제공하는 인공지능 기반 에코 제거 기술이 있지만, 써본 적도 없고 구독료는 소중하기 때문에... 오픈 소스 인공지능 모델을 이용하여 에코를 지워보려고 한다. https://colab.research.google.com/drive/1CO3KRvcFc1EuRh7YJea6DtMM6Tj8NHoB#scrollTo=UHIQxwkUtSDa MDX Colab | auto mod..

3. RVC Web UI 알아보기: 모델 훈련 최적의 하이퍼파라미터 조작 팁

https://kosonkh7.tistory.com/166 1. RVC Web UI 알아보기: 설치 및 실행 방법 가이드 (따라만 하면 됨) 보컬 AI로 특정 가수가 다른 가수 곡을 커버하는 영상들을 관심있게 봐왔는데, 왠지 내가 더 잘 학습시킬 수 있지 않을까란 근거 없는 자신감과 함께 시도해보려고 한다. RVC는 간단하게 말하면, V kosonkh7.tistory.com https://kosonkh7.tistory.com/168 2. RVC Web UI 알아보기: 모델 훈련 방법, AI 보컬 커버 생성 가이드 https://kosonkh7.tistory.com/166 1. RVC Web UI 알아보기: 설치 및 실행 방법 가이드 (따라만 하면 됨) 보컬 AI로 특정 가수가 다른 가수 곡을 커버하는 영..