728x90
드디어 블로그 이름 값을 위한 논문 정리를 해보려 한다. ← 라고 11/29에 했지만, CLIP을 먼저 보는 바람에 stabel diffusion은 지금 정리하게 되었다. (12/11)
내가 정리할 목차는 다음과 같다.
- 논문에 대한 간단 소개
- Motivation 및 Contribution (Introduction)
- Method
- Experience 및 Result
- Conclusion
High-Resolution Image Sysnthesis with Latent Diffusion Models (aka. Stable Diffusion)
1. 간단한 소개
- 논문 출판: CVPR 2022
- Known as: Stable diffusion
- Cited by: 4054 (2023.12.11 기준)
- 왜 Stable Diffusion인가? : 많은 사람들이 이 논문 제목은 들어본 적없는데 stable diffusion은 들어봤을 것이다. 해당 논문 내에는 'stable diffusion'이라는 말이 없다. 그런데 어째서 이 논문은 stable diffusion 논문일까? 이 논문에 나온 모델을 서비스 하는 회사인 'Stability ai'에서 서비스를 만들어 팔 때 stable diffusion이라고 이름 지었기 때문이라고 한다.
아무튼 이 논문은 생성모델 논문 중, 이제는 diffusion이 대세인데 그 대세의 중심에 있는 논문이라고 생각한다.
2. Motivation & Contribution
- Motivation, 기존 diffusion model(DM)의 문제:
- pixel space에서 operate하기 때문에, GPU를 많이 필요로 한다. (많은 수, 긴 시간)
- Contribution:
- 1) 기존 DM의 문제인 큰 계산량을 줄임
- 2) 동시에 detail도 유지
- 3) Visual fidelity 도 증가
- HOW?
- 1) Cross-attention layers
- 2) latent space
꽤나 잘 정리 된 것 같은 블로그 추천!
그림으로 이해하는 Stable Diffusion (번역)
그림으로 이해하는 Stable Diffusion (번역)
velog.io
728x90
'인공지능 (AI, Deep learning) > [CV] Computer vision👁' 카테고리의 다른 글
cannot import name '_C' 오류 해결(detectron2, (0) | 2024.07.02 |
---|---|
[논문] CLIP: Connecting text and images (작성중) (0) | 2023.11.30 |
Wavelet Transform 개념 설명 유투브 추천 (feat. vs Fouier Tranfrom) (2) | 2023.05.22 |
[WST] Wavelet Scattering Transform -1 (0) | 2023.05.03 |