Learning Transferable Visual Models from Natural Language Supervision

by홍만수 2021.03.31 18:18

발표자	홍만수
발표일자	2021-03-31
저자	Alec Radford et al.
학회명
논문지

그림1.png

그림2.png

그림3.png

https://openai.com/blog/clip/

첨부 [4]

이지형

2021.03.31 19:33

상당히 흥미로운 아이디어임. 그런데, (1)단계에서 상당히 많은 학습데이터가 필요할 것 같음. 결국 엄청난 데이터를 모아서 pre-training 모델을 생성해서 자유도가 높은 classifier를 생성하는 연구라고 할 수 있겠음.

댓글
신효정

2021.03.31 19:41

제가 앞부분을 놓쳤는데 CLIP의 (1) Contrastive pre-training에서 img와 text가 img와 그에 달려있는 캡션이다 라고 이해하면 될까요?
그럼 클래스에 맞춰서 이 쌍을 수집해야 될 것 같은데(아니면 쌍을 수집하고 레이블을 달아줌?) 발표하실 때 데이터를 수집만 했지 처리는 안했다 라고 하셨던 것 같아서요.
수집된 쌍(이미지-캡션)에 따로 레이블을 달아 주지 않아도 자동으로 (2) Create dataset classifier from label text 에서 클래스를 얻을 수 있는걸까요?

댓글
홍만수

2021.04.01 15:04

(1)의 학습데이터는 image + caption 페어인 것이 맞습니다.
(2)는 학습 과정이 아닙니다. (1)의 학습데이터와 (2)의 입력데이터는 다른 데이터입니다. (2)의 데이터는, 예를 들어서, CIFAR-10 같은 데이터가 있을 때, CIFAR-10의 레이블을 모두 "a photo of {object}"로 변경합니다. 새라면 "a photo of bird"가 됩니다.

댓글
김호승

2021.03.31 19:54

간단한 loss를 통해 좋은 결과를 이끌어 낸 것을 볼 수 있었습니다. loss를 1:1(1/2)로 사용하였던데 비율에 따라서 결과값이 조금 달라질 것이라 생각이 됩니다. 혹시 loss의 비율에 대한 결과값은 있었나요?

댓글
홍만수

2021.04.01 15:08

없습니다. Loss의 이름은 symmetric cross entropy loss로, "symmetric"이 의미하는 그대로 입력 텍스트와 입력 이미지가 동일하게 영향을 끼치게 되어 있습니다.

댓글
jinsuby

2021.03.31 19:55

Text Encoder에서 사실 detail category 정보를 주고 classificaition을 하기 때문에 이러한 shortcut을 막기 위한 Text Encoder 모델을 구성해야 text와 image의 multi-modal robust 성능이 향상 될 것 같다.

댓글
박은미

2021.03.31 19:55

그 전에 Eden 님이 발표하신, Image와 Caption간의 Multi-Modal Sarcasm Detection을 파악하는 연구처럼 Pre-training에 사용되는 Image와 Text를 internet상에서 모을 때, 꼭 상관관계가 높은 pair로 만드려면, Dataset을 추구하기 위해 더 정밀한 노력을 취했을 것 같습니다. 논문 상에는 더 자세한 방법론은 제시하지 않은 거지요?

댓글
홍만수

2021.04.01 15:26

데이터셋을 구성하는 부분에 대한 설명은 논문의 3페이지 끝에 2.2 섹션에 쓰여 있습니다.
박은미님의 질문에 답변하고자 다시 확인해보니 제가 논문을 읽는 과정에서 오류가 있었습니다. 기존 퍼블릭 데이터셋도 4억 개 이미지-텍스트 페어 데이터셋을 구축할 때 사용했다고 잘못된 정보를 소개했습니다. 박은미님의 질문에 대한 답변과 겹치기 때문에 함께 답변합니다.
2.2의 시작에 3가지 기존 데이터셋(MS-COCO, Visual Genome, YFCC100M)을 소개합니다. 이후, "considering results only on them would underestimate the potential of this line of research"로 학습데이터로는 필요없다고 말합니다. 그리고 "we constructed a new dataset of 400 million ... publicly available sources on the Internet"이라며 순수히 인터넷에서만 데이터를 수집합니다.
이미지-텍스트 페어는 텍스트가 준비한 50만개 쿼리에 해당하는 경우만 남겼다고 합니다. 쿼리는 위키피디아에서 100회 이상 나온 단어를 기준으로 기본 리스트를 구축하였고, bi-gram으로 augmentation하여 만들었다고 합니다.
클래스 밸런스를 위해 각 쿼리당 최대 2만개 페어까지 남겨두었습니다.
최종적으로 GPT-2 학습에 쓰인 WebText 데이터셋의 단어 수와 비슷한 단어 수를 가진 데이터셋을 구축했습니다.
해당 데이터셋을 WebImageText(WIT)로 이름지었다고 합니다.
아쉽게도 다운로드 링크는 없습니다.

댓글
조영성

2021.03.31 19:56

인터넷에 granny smith/ ipod 말고 푸들에 $기호를 도배한 다른 예시가 있는데 그건 모델이 공격 당할 여지가 있음을 보여주는 것 같네요.

댓글
홍만수

2021.04.01 15:31

네, 그렇습니다.
해당 그림이 나온 Gabriel Goh, Nick Cammarata, Chelsea Voss 외 5인이 작성한 "Multimodal Neurons in Artificial Neural Networks"(Distill, 2021)에 따르면, 이러한 공격을 Typographic Attacks라고 합니다.
재밌는 논문이니 꼭 한 번 읽어보세요.

댓글
강석규

2021.03.31 20:28

1. imagenet에 최적화된 모델들에 대한 비판들은 예전부터 있어 왔는데, 누가 데이터를 많이 모으느냐의 이슈로 넘어가는 듯 합니다. 구글에서 대규모 데이터셋으로 pretraining하면 이미지 분석에서 발생하는 대부분의 문제를 해결하면 된다는 취지에서 나온 데이터셋인 JFT-300M에서도 제대로 되는지 궁금하네요.

2. 연합학습에 CLIP의 아이디어를 어떤 식으로 적용할 수 있을까요?

댓글
홍만수

2021.04.01 17:23

1. 본 논문의 핵심 크게 두 가지라고 생각합니다. 첫째는 "문제를 해결하기 위해 필요한 데이터 양이 어떻다"보다 "이미지와 텍스트를 연동함으로써 더 많은 visual concept를 표현할 수 있도록 한다"입니다. 둘째는 "이렇게 학습한 인코더들은 현실의 태스크나 학습 중 보지 못한 데이터에서도 상대적으로 잘 대응한다"입니다. 그래도 WIT 데이터셋이 무려 4억개 페어를 가지고 있다 보니 저 역시 결국 수많은 데이터를 학습시켜서 가능한 일이 아닌가 에 대한 의심은 지울 수 없습니다.
JFT-300M은 이미지와 레이블이 붙은 전통적인 구조인 것으로 알고 있습니다. 이 경우, 두 번째 핵심인 텍스트로 넓히는 visual concept 영역이 JFT-300M의 레이블에 한정될 것으로 보입니다. 텍스트는 똑같이 공을 쫓는 강아지 사진이라 해도 "A dog is playing with a ball", "A dog is chasing a ball", "It is a dog" 등 다양하게 표현할 수 있고 한 번에 여러 개념을 담을 수 있습니다. 이러한 유연성이 unseen 이미지 데이터에 대한 포용을 갖출 수 있게 해주는 것이라고 생각합니다. 세미나에서 언급하지는 않았지만 논문의 실험 중 3.3 Robustness to Natural Distribution Shift에서는 ImageNet의 분포로 맞출 경우(14페이지, "CLIP models change after adapting to the ImageNet distribution via a L2 regularized logisitic regression classifier fit to CLIP features on the ImageNet training set") ImageNet 데이터에 대한 성능은 높아지지만(14페이지, "increases its ImageNet accuracy by 9.2% to 85.4% overall") 그외 데이터는 성능이 미묘하게 낮아지는 모습을 보인다고 했습니다. (16페이지, Figure 14) 데이터셋 자체에 문제라기 보다는 학습 방법의 차이로 인한 이슈가 아닐까 생각합니다. 전통적인 방법은 특정 데이터셋의 분포에 맞춰지도록 학습을 하도록 유도되는 것입니다.

2. 해당 부분은 저도 모호한 아이디어만 가지고 있기 때문에 아직 대답하기는 어렵습니다. 정리가 되면 따로 말씀드리겠습니다. 본 논문에서 얘기하는 어마어마한 범위는 아니더라도 더 적은 데이터로 더 적은 영역을 납득 가능한 수준으로 표현할 수 있는가를 먼저 알아보고자 합니다.

댓글
나철원

2021.03.31 20:34

발표 흥미롭게 잘 들었습니다. 해당 아이디어에서 Text Encoder의 성능이 bias가 클 것 같습니다. GPT 저자가 쓴 논문이라 Text Encoder로 기존 GPT에 해당 데이터를 더 pre-train 시켜서 사용했을 가능성도 크다 생각됩니다. GPT를 사용했기에 이 정도 성능이 나왔을 거라고 생각되는데 Text Encoder를 여러 모델로 사용했을 때 비교실험이 궁금하네요.

댓글
김누리

2021.03.31 23:15

발표 감사합니다. overview 중 2. Create dataset classifier from label text 와 3. Use for zero-shot prediction의 변형을 통해 다른 task로의 확장이 이루어질 수 있을 것 같습니다.

댓글
윤수현

2021.03.31 23:38

세미나 잘 들었습니다. 컴퓨터 비전 분야에도 BERT, GPT와 같은 엄청난 수의 데이터를 사용한 pre-trained model이 좋은 성능을 내기 시작한 것이 흥미로웠습니다. 수집한 text data를 embedding하기까지 많은 가공이 필요할 것 같은데, 논문에서 자세한 방법을 공개하지는 않았는지 궁금합니다. text model에 bias되서 학습되는 등 여러 문제점들에 대해 앞으로 많은 개선이 이루어질 것 같습니다. 좋은 발표 감사합니다.

댓글
김사무엘

2021.04.01 03:06

이런 아이디어를 중간, 혹은 작은 스케일에서도 활용하려면 가능할지, 그렇다면 어떻게 해야할지 논의해볼 수 있을거 같습니다.

댓글
임지영

2021.04.01 10:30

발표 잘 들었습니다. 흥미로운 모델 구조였지만 너무 많은 데이터를 사용해서 잘되는게 아닌가 하는 생각이 들었습니다 . 하나의 데이터셋에만 적용한 실험 결과 ( 흔히 사용하는 데이터셋 정도의 크기만 사용한 경우거나요 ) 가 있을지 궁금합니다. 일반적으로 이 모델을 사용하면 좋을것 같은데 가능하게 하는 방법을 생각해 보면 좋을 것 같습니다. 감사합니다

댓글
홍만수

2021.04.01 17:26

아쉽게도 그러한 것은 아직 없습니다.

댓글
신재민

2021.04.01 12:25

좋은 내용 잘 들었습니다.
기존 방법이 치팅이었다는 내용은 당연한 이야기이지만, 이 방법이 치팅을 회피하기 위해서 학습을 통하여 페어링을 한 부분도 치팅의 한계를 넘어서지는 못했다고 생각합니다.
저는 오히려 이미지에 레이블을 달아주는 프로세스가 추가된 것이 치팅을 더 심하게 했다고 생각합니다.
단지 데이터가 정형적이지 않고 언제든지 변경될 수도 있다는 점은 의미가 있어 보입니다.

댓글
홍만수

2021.04.01 17:44

본 논문의 저자들은 특정 벤치마크에서 높은 성능을 보이도록 학습하여 해당 벤치마크에서만 쓸 수 있는 모델을 만드는 것을 "치팅"이라고 불렀습니다. (Poor real-world performance, "We conjecture that this gap occurs because the models "cheat" by only optimizing for performance on the benchmark, much like a student who passed an exam by studying only the questions on past year's exams.", https://openai.com/blog/clip/) 즉, ImageNet으로 열심히 학습해서 ImageNet 테스트 데이터셋에서만 높은 성능이 나오고 그외 데이터셋에서 지나치게 낮은 성능이 나오는 것과 같은 것들을 의미합니다. (15페이지, Figure 13) 즉, CLIP은 다른 데이터셋이나 태스크에 더 robust하기 때문에 기존 방법들처럼 치팅하고 있지 않다 라고 주장합니다. (14 페이지, Figure 12)
이미지에 레이블을 달아주는 부분은 zero-shot classification 테스트를 하는 부분을 오해하신 것으로 추측합니다. 해당 부분이 pre-training 뒤에 그대로 붙어있어서 저 역시 많이 혼란스러웠습니다. CIFAR-10으로 예를 들어 보겠습니다. CIFAR-10의 10개의 레이블을 모두 "a photo of {object}"로 변환합니다. 즉 10개의 텍스트 데이터("a photo of {airplane/automobile/bird/cat/deer/dog/frog/horse/ship/truck}")가 생깁니다. 해당 텍스트 데이터를 text encoder에 입력하여 embedding 10개를 뽑습니다. 이미지는 레이블 없이 image encoder에 입력하여 embedding합니다. 이때 이미지 embedding과 텍스트 embedding의 유사도(cosine similarity)를 계산하여 가장 가까운 텍스트 embedding을 뽑습니다. 유사도가 가장 높은 텍스트 embedding의 원본 텍스트가 "a photo of cat"인 경우, "이미지의 클래스는 cat이다"라고 판단합니다. 인코더들은 이미 학습이 되어 있습니다. 물론 이 과정에서 추가 학습도 가능합니다.
학습 과정에서 이미지와 텍스트를 직접 페어링하여 새로운 데이터셋을 만드는 과정은 없습니다. 이미지-텍스트 페어링은 학습데이터 수집에서 이미 이루어져 있습니다. 인터넷에서 수집했기 때문에 텍스트가 무엇이 쓰여있는지는 저도 데이터셋을 보지 않으면 알 수 없습니다. 데이터 수집 방법은 박은미님께 드린 답변을 참고해주시기 바랍니다.
그럼에도 불구하고 온전히 "치팅"이 덜할 뿐 온전히 벗어났다고 보기 어려운 것은 CLIP도 unseen 데이터에 대해 낮은 성능을 보이고 특정 태스크나 데이터 성향에 따라 낮은 성능을 보이기 때문입니다. 아마 치팅에서 온전히 자유로울 수 있는 모델은 미래에도 만들 수 없지 않을까 싶습니다.

댓글
신재민

2021.04.07 10:44

자세한 설명 고맙습니다.
레이블링 부분은 제가 오해를 한 것 같습니다.

사람의 학습 자체가 치팅인데 완전한 CHEATING-FREE 모델은 없겠죠 ㅎㅎ
계속된 연구에서 데이터 편향을 어떻게 극복할지가 기대됩니다.

고맙습니다.

댓글
김가형

2021.04.01 17:21

발표 잘 들었습니다. Figure 1. (1)에 Contrastive pre-training하는 부분에서 text와 image encoder로 어떻게 constrastive learning을 하는지 궁금합니다. Image와 text pair에 대한 정답셋이 존재해서 서로의 관계를 나타낼 수 있는 matrix로 나타낼 수 있는건가요?

댓글
홍만수

2021.04.01 17:50

네 그렇습니다. 학습데이터는 이미 텍스트와 이미지가 페어링되어 있습니다.

댓글
강용훈

2021.08.20 13:16

Text Data와 Image Data 함께 학습하여 Zero-Shot Learning의 성능을 월등히 올릴 수 있다는 점이 흥미로웠습니다. 하지만 Data가 너무 많이 필요할것 같고 학습 시간이 오래 걸린다는 단점이 있을거 같습니다. 그래도 좋은 논문 발표 감사드립니다.

댓글

2022

DGCN: Diversified Recommendation with Graph Convolution Networks

2022.03.28

발표자: 양희윤 발표일자: 2022-03-28 저자: Yu Zheng, Chen Gao, Liang Chen, Depeng Jin, Yong Li 학회명: WWW ’21

Divergence-aware Federated Self-Supervised Learning

2022.03.22

발표자: 강용훈 발표일자: 2022-03-22 저자: Weiming Zhuang, Yonggang Wen, Shuai Zhang 학회명: ICLR 2022

Recurrent Auto-Encoder with Multi-Resolution Ensemble and Predictive Coding for Multivariate Time-Series Anomaly Detection(RAE-MEPC)

2022.03.22

발표자: 신효정 발표일자: 2022-03-22 저자: Heejeong Choi, Subin Kim, and Pilsung Kang 학회명: arXiv, 21 Feb 2022

Camouﬂaged Object Segmentation with Distraction Mining

2022.03.22

발표자: 임지영 발표일자: 2022-03-22

WIRING UP VISION:MINIMIZING SUPERVISED SYNAPTIC UPDATES NEEDED TO PRODUCE A PRIMATE VENTRAL STREAM

2022.03.23

발표자: 안재한 발표일자: 2022-03-22 저자: Franziska Geiger ~Franziska_Geiger1 , Martin Schrimpf, Tiago Marques, James J. DiCarlo 학회명: ICLR2022

Online Knowledge Distillation for Efficient Pose Estimation

2022.03.03

발표자: 배현재 발표일자: 2022-03-04 저자: Zheng Li¹ , Jingwen Ye², Mingli Song², Ying Huang1, Zhigeng Pan1 학회명: ICCV 2021

Input Complexity and Out-of-distribution Detection with Likelihood-based Generative Models

2022.03.04

발표자: 노순철 발표일자: 2022-03-04

Channelized Axial Attention – Considering Channel Relation within Spatial Attention for Semantic Segmentation

2022.03.04

발표자: 윤수현 발표일자: 2022-03-04 저자: Ye Huang, Di Kang, Wenjing Jin, *Xiangjian He, Liu Liu 학회명: AAAI 2022

FedBABU: Toward Enhanced Representation for Federated Image Classification

2022.03.04

발표자: 홍만수 발표일자: 2022-03-04 저자: Jaehoon Oh, Sangmook Kim, Se-Young Yun 학회명: ICLR 2022

Deep Learning for Symbolic Mathematics

2022.02.22

발표자: 고설준 발표일자: 2022-02-22 저자: Guillaume Lample, François Charton 학회명: ICLR2020

Semi-Supervised Learning of Visual Features by Non-Parametrically Predicting View Assignments with Support Samples

2022.02.22

발표자: 김유성 발표일자: 2022-02-22 저자: Mahmoud Assran et al. 학회명: ICCV 2021

Boosting the Performance of Semi-Supervised Learning with Unsupervised Clustering

2022.02.22

발표자: 김누리 발표일자: 2022-02-22 저자: Lerner, Boaz, Guy Shiran, and Daphna Weinshall 학회명: arXiv preprint arXiv:2012.00504 (2020)

Universal Domain Adaptation through Self-Supervision

2022.02.22

발표자: 이진섭 발표일자: 2022-02-22 저자: Kuniaki Saito , Donghyun Kim, Stan Sclaroff, Kate Saenko 학회명: NIPS 2020

GPipe: Easy Scaling with Micro-Batch Pipeline Parallelism

2022.02.22

발표자: 조영성 발표일자: 2022-02-22 저자: Yanping Huang, Youlong Cheng, Ankur Bapna, Orhan Firat, Mia Xu Chen, Dehao Chen, HyoukJoong Lee, Jiquan Ngiam, Quoc V. Le, Yonghui Wu, Zhifeng Chen 논문지: https://arxiv.org/abs/1811.06965

Dual Attention Transfer in Session-based Recommendation with Multi-dimensional Integration

2022.02.15

발표자: 양희윤 발표일자: 2022-02-15 저자: Chen Chen, Jie Guo, Bin Song 학회명: ACM SIGIR 2021

Contrastive Code Representation Learning

2022.02.15

발표자: 최윤석 발표일자: 2022-02-15 저자: Paras Jain, Ajay Jain, Tianjun Zhang, Pieter Abbeel, Joseph E. Gonzalez, Ion Stoica 학회명: EMNLP 2021

Do transformers really perform bad for graph representation?

2022.02.15

발표자: 김가형 발표일자: 2022-02-15 저자: Chengxuan Ying, Tianle Cai, Shengjie Luo, Shuxin Zheng, Guolin Ke, Di He, Yanming Shen, Tie-Yan Liu 학회명: NeurIPS 2021

AUM: Identifying Mislabeled Data using the Area Under the Margin Ranking

2022.01.16

발표자: 강석규 발표일자: 2022-01-18 저자: Geoff Pleiss, Tianyi Zhang, Ethan R. Elenberg, Kilian Q. Weinberger 학회명: NIPS2022

Collaborative Unsupervised Visual Representation Learning from Decentralized Data

2022.01.18

발표자: 강용훈 발표일자: 2022-01-18 저자: Weiming Zhuang, Xin Gan , Yonggang Wen , Shuai Zhang , Shuai Yi 학회명: ICCV 2021

Can We Gain More from Orthogonality Regularizations in Training Deep CNNs?

2022.01.18

발표자: 안재한 발표일자: 2022-01-18 저자: Nitin Bansal, Xiaohan Chen, Zhangyang Wang 학회명: NeurIPS 2018

3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22

댓글 24

2022

검색

로그인