본문 바로가기
인공지능 (AI, Deep learning)/[CV] Computer vision👁

[논문] Stable Diffusion, High-Resolution Image Synthesis with Latent Diffusion Models (작성중)

by kks2 2023. 11. 29.
728x90

드디어 블로그 이름 값을 위한 논문 정리를 해보려 한다. ← 라고 11/29에 했지만, CLIP을 먼저 보는 바람에 stabel diffusion은 지금 정리하게 되었다. (12/11)

 


 

 

내가 정리할 목차는 다음과 같다. 

  1. 논문에 대한 간단 소개
  2. Motivation 및 Contribution (Introduction)
  3. Method
  4. Experience 및 Result
  5. Conclusion

 

High-Resolution Image Sysnthesis with Latent Diffusion Models (aka. Stable Diffusion)

 

1. 간단한 소개

논문 시작 페이지

 

  • 논문 출판: CVPR 2022
  • Known as: Stable diffusion
  • Cited by: 4054 (2023.12.11 기준)
  • 왜 Stable Diffusion인가? : 많은 사람들이 이 논문 제목은 들어본 적없는데 stable diffusion은 들어봤을 것이다. 해당 논문 내에는 'stable diffusion'이라는 말이 없다. 그런데 어째서 이 논문은 stable diffusion 논문일까? 이 논문에 나온 모델을 서비스 하는 회사인 'Stability ai'에서 서비스를 만들어 팔 때 stable diffusion이라고 이름 지었기 때문이라고 한다. 

아무튼 이 논문은 생성모델 논문 중, 이제는 diffusion이 대세인데 그 대세의 중심에 있는 논문이라고 생각한다. 

 

 

2. Motivation & Contribution

  • Motivation, 기존 diffusion model(DM)의 문제:
    •  pixel space에서 operate하기 때문에, GPU를 많이 필요로 한다. (많은 수, 긴 시간)
  • Contribution: 
    • 1) 기존 DM의 문제인 큰 계산량을 줄임
    • 2) 동시에 detail도 유지
    • 3) Visual fidelity 도 증가
    • HOW? 
      • 1) Cross-attention layers
      • 2) latent space

 

 


 

 

꽤나 잘 정리 된 것 같은 블로그 추천! 

https://velog.io/@hammerimpact/%EA%B7%B8%EB%A6%BC%EC%9C%BC%EB%A1%9C-%EC%9D%B4%ED%95%B4%ED%95%98%EB%8A%94-Stable-Diffusion-%EB%B2%88%EC%97%AD

 

그림으로 이해하는 Stable Diffusion (번역)

그림으로 이해하는 Stable Diffusion (번역)

velog.io

 

728x90