원래 stable diffusion을 하려 했는데, CLIP을 먼저 하기로 마음 먹었다. 어제 stable diffusion을 method까지 읽었는데, 갑자기 오늘 다른 Generative model들 논문들(Get3D - from NVIDIA, Style GAN)을 보고 나니까 오히려 multi modal을 읽고 싶어졌다. 오늘 볼 generative model 쿼터를 다 채운 것일까. 😮
참고로 지금 아직 글을 쓰고 있는 단계라 확실하지 않은 부분도 있다. 그런 것은 밑줄을 쳐놨으니 참고하시길!
와 논문을 다 읽지 않은 상태로 글을 쓰기 시작했는데, (글을 쓰며 읽는 타입) 이렇게 긴 논문인줄은 몰랐다. 이렇게 길게 써도 되는 학회가 있었나? 48page나 되지만 (appendix를 빼도 36page), 실험이 엄청 많은거지 내용은 생각보다 간단하니 너무 겁먹지 않아도 될 것 같다.
CLIP: Contrastive Language-Image Pre-training.
링크
CLIP으로 알려진 논문 "Learning Transferable Visual Models from Natural Language Supervision" 이다.
논문링크: https://arxiv.org/abs/2103.00020
Learning Transferable Visual Models From Natural Language Supervision
State-of-the-art computer vision systems are trained to predict a fixed set of predetermined object categories. This restricted form of supervision limits their generality and usability since additional labeled data is needed to specify any other visual co
arxiv.org
CLIP 소개 (Open AI 공식): https://openai.com/research/clip
CLIP: Connecting text and images
We’re introducing a neural network called CLIP which efficiently learns visual concepts from natural language supervision. CLIP can be applied to any visual classification benchmark by simply providing the names of the visual categories to be recognized,
openai.com
ICML에서 Oral Presentation한 자료: https://icml.cc/virtual/2021/oral/9194
ICML 2021 Learning Transferable Visual Models From Natural Language Supervision Oral
State-of-the-art computer vision systems are trained to predict a fixed set of predetermined object categories. This restricted form of supervision limits their generality and usability since additional labeled data is needed to specify any other visual co
icml.cc
소개
CLIP은 open AI (chat GPT를 만든 곳)에서 2021년에 쓴 논문이다.
아주 간단히 소개하자면, 이 연구는 Image Task와 NLP를 연결 지은 논문이라고 할 수 있다. 그리고 "Zero Shot learning" 이 중요한 키워드이다.
조금 더 자세히 말하면, 이름에서 알 수 있듯, Contrastive Objective을 사용해서 비슷한 것끼리는 가까이 & 다른 것은 멀리 Learning 시킨다 (latent space에). 그래서 새로운 이미지나 글이 들어왔을 때, 해당 데이터가 뭐랑 비슷한 것인지 알 수 있다. 이렇게 함으로써 zero shot이 가능한 것이다.
[논문 목차]
- Abstract
- Approach
- Natural Language Supervision
- Creating a Sufficiently Large Dataset
- Selecting an Efficient Pre-Training Method
- Choosing and Scaling a Model
- Training
- Experiments
- Zero-Shot Transfer
- Representation Learning
- Robustness to Natural Distribution Shift
- Comparison to Human Performance
- Data Overlap Analysis
- Limitation
- Broader Impacts
- Related Work
- Conclusion
흐음 원래는 논문 목차대로 정리를 하려 했으나, 그냥 내가 원래 정리하는 스타일대로 정리하기로 했다. 그런데 원래는 ppt로 정리해서 여기엔 어떻게 할지 좀 고민이긴하지만 비슷하게 하면 되겠지
그래서 내 글의 content는
1. Introduction
2. Method
3. Experiment & Result
4. Conclusion 이다.
1. Introduction (Motivation)
- 왜 이 논문/연구를 하게 되었는가?
기존연구: object의 class (카테고리)가 fix되어있었다.
→ generality & usability 떨어짐
∴ CLIP: 정해진 lclass name (ex. dog, cat 등)이 아니라, 이미지에 대한 raw text (ex. This is a picture of a cat)를 학습에 활용하여 generality를 높힘
- CLIP은 무슨 모델인가?
Natural language supervision으로 visual concept을 효율적으로 학습하는 모델이다. 이는 이미지와 텍스트를 공통 embeding 공간에 보내서 하는 것이다.
- 실험:
30개 이상의 datasets을 사용해서 실험 함
→
- 관련 연구
이 연구에 대해 잘 알기 위해서는 1) Natrual language로 학습하는 것과 2) Zero-shot transfer, 3) 다양한 데이터 셋에서 잘 작동하는 방법에 대한 연구를 알아두면 좋다.
2. Method
- Key point
1) Image & Text 공통 embeding공간 (multi modal)
2) Contrastive learning
3) Zero shot
- 간단한 summary
3. Experiments & Results
4. Conclusion
'인공지능 (AI, Deep learning) > [CV] Computer vision👁' 카테고리의 다른 글
cannot import name '_C' 오류 해결(detectron2, (0) | 2024.07.02 |
---|---|
[논문] Stable Diffusion, High-Resolution Image Synthesis with Latent Diffusion Models (작성중) (0) | 2023.11.29 |
Wavelet Transform 개념 설명 유투브 추천 (feat. vs Fouier Tranfrom) (2) | 2023.05.22 |
[WST] Wavelet Scattering Transform -1 (0) | 2023.05.03 |