발표자 | 신재민 |
---|---|
발표일자 | 2021-03-24 |
저자 | Shen Zhuoran |
학회명 | WACV 2021 |
논문지 |
댓글 14
-
신효정
2021.03.24 18:54
-
신재민
2021.03.31 20:38
저자가 제시한(실험한) qkv의 차원은 d=dv=2dk=2dq 입니다. complexity 감소 내용은 아래 보충 설명 1번에 달았습니다. 추가로 설명이 필요하시면 알려주세요. -
김호승
2021.03.24 19:11
Attention의 다양한 형태가 많이 나오는 요즘, 많이 헷갈렸는데 잘 설명해주셔서 감사합니다. -
나철원
2021.03.24 20:25
발표 잘 들었습니다. Attention의 복잡도를 개선하는 방향의 연구를 자연어 처리 분야에서 많이 접했었는데 비전 분야에서는 어떻게 진행되는지 알게 된 시간이었습니다. 추후에 자연어처리 분야에서도 적용한다고 하셨는데 과연 Q,K,V의 차원이 같은 Self-Attention 구조에서는 어떤 식으로 전개할지 기대가 됩니다. -
신재민
2021.03.31 20:38
실험이 이미지에 대한 것이라서 self-attention으로 진행된 내용입니다.
저자는 향후 generative adversarial image modeling과 natural language processing에도 적용할 예정이라고 추적 관찰하시면 좋을 듯 합니다. -
박은미
2021.03.25 14:14
발표 감사합니다. Memory size가 줄어들도록 개선한 내용인데, 제가 computer vision에서의 attention mode에 대한 이해가 깊지 않아, 해당 내용을 좀 더 알고 싶어졌습니다. 감사합니다. -
홍만수
2021.03.29 14:33
계산방식을 바꾸어 더 효율적인데 최종적으로 원래하고자 했던 일도 가능하다는 점에서 5x5나 7x7을 3x3으로 하는 conv가 생각이 납니다. 위의 나철원씨가 self-attention에서 어떻게 적용할지라는 질문은 저도 똑같이 궁금한데요. 당장 self-attention은 Q, K^T에 softmax를 걸기 때문에 efficient attention처럼 K^T와 V를 먼저 처리하기 어려울 것 같긴 합니다. 추가로 Efficient attention과 LambdaNetworks 중 어느쪽이 더 유용할지도 궁금하네요. -
신재민
2021.03.31 20:39
저자도 softmax가 동일하게 이루어지 않기 때문에 논리적은 근거를 대는 것이 아니고 실험적으로 equivalent하다고 주장합니다.
LambdaNetworks 는 제가 내공이 부족해서 답변이 어렵습니다 ^^ -
신재민
2021.03.30 22:46
1) n x n 값은 얼마인가?
이 논문은 주로 영상 입력에 대하여 이야기 하고 있습니다.
가로세로 길이가 각각 600, 400 픽셀인 경우 600x400=240,000 값이 n이 되고
따라서 n x n은 240,000의 자승인 57,600,000,000 이 됩니다.
입력이 영상이 아니고 문장인 경우 n은 단어의 개수가 되고,
영어 문장이 입력될 경우 100개의 단어로 이루어진 하나의 문장은(상당히 긴 문장일 지라도)
n x n 이 100의 자승인 10,000이 됩니다.
따라서 Dot-product Attention은 영상 입력에서 메모리와 연산이 매우 많이 필요하게 되니
이 부분을 보완하겠다는 것이 이 논문의 핵심 주제입니다.
2) QKV값은 구체적으로 무엇인가?
저자가 논문에 표기한 GitHub에 Efficient Attention 모듈만 코드를 공개해 두었습니다.
https://github.com/cmsflash/efficient-attention
https://github.com/cmsflash/efficient-attention/blob/master/efficient_attention.py
PyTorch로 작성된 이 코드에서
15/16라인을 보면 K와 Q는 동일한 입력이고
17라인을 보면 V는 다른 입력입니다., 즉 d 값이 다릅니다.
이는 저자가 논문에 표기한 내용과 일치합니다.
논문에서 저자는 d=dv=2dk로 사전 설정했다고 밝히고 있습니다.
코드에서 d=dv=2dk로 표기한 것은 아니지만
아마도 이 값은 입력될 때 사전 가공될 것이므로 굳이 표기하지는 않은 듯 합니다.
또한, 15/16/17 라인에서 nn.Conv2d로 부터 QKV를 받아오므로
QKV 각각은 Convolution연산으로 얻어진 Featuremap 입니다.
3) COCO 2017 dataset의 이미지 크기
COCO 2017 dataset의 이미지 크기는 단일 크기가 아니고 다양합니다.
가로 최대 640 픽셀, 세로 최대 480이며,
본문에 이미지 크기에 대한 그래프를 첨부했으니 참고하시기 바랍니다.
4) d 보다 n이 상대적으로 매우 크다는 가정에 대하여
교수님께서 지적하신 내용은 일반적으로 Convolution layer를 여러 번 사용할 경우
Featuremap의 가로세로 크기는 점차 줄어들지만 Featuremap의 개수는 늘어나는 구성을 사용하므로
제안하는 방법이 초기 Convolution Layer에서는 효과가 좋을 수 있으나
후단으로 갈수록 dk x dv 매트릭스는 비대해질 수 있다는 것이었습니다.
아직 이 부분은 확인 중이며, 좀 더 확인 후에 업데이트 하겠습니다. -
노순철
2021.03.31 04:47
계산량에 대한 효율성의 측면에서 효과적인 방법을 제시한 논문이라고 생각합니다. 비전 분야에서도 Attention이 꾸준히 연구되는 것을 보니 공부를 더 많이 해야겠다는 생각이 듭니다. ppt의 15page에서 보여주신 실험 결과에서 가장 우측의 input size가 계속 달라지는 이유는 convolution layer를 거치면서 이미지의 크기가 계속 변하기 때문으로 이해했는데 맞게 이해한걸까요? 좋은 발표 감사드립니다! -
신재민
2021.03.31 20:39
Table 2에서(ppt 15 페이지) 입력 크기가 달라지는 부분은 구체적 설명이 없었습니다.
다만 말씀하신 내용이 일리가 있어 보입니다. 내용 확인되면 답변 달겠습니다. -
김가형
2021.03.31 16:48
Dot-product attention과 달리 keys를 dk 차원을 가진 attention map으로 받아들여 계산하는 방식이 흥미로웠습니다. Attention에 specific position 정보가 꼭 필요하다고 생각했었는데, 입력 데이터에 대한 semantic aspect을 반영한 계산만으로도 유사하게 좋은 성능을 낼 수 있다는 사실이 신기했습니다. 좋은 발표 감사드립니다. -
신재민
2021.03.31 20:40
개인적으로는 NLP에서 감성 분석으로 사용되면 나름대로 성능이 좋을 수도 있다고 생각했습니다.
다만 번역과 같은 위치 정보가 중요한 상황에 대해서는 실험을 해 봐야 판단이 가능할 듯 합니다. -
신재민
2021.04.07 10:09
추가로 확인한 사항입니다. (두 가지)
1) QKV에서 d 값은 무엇인가
앞서 알려드린 코드를 보면 EfficientAttention 모듈을 초기화 할 때
1x1 커널을 사용하여 입력 데이터의 채널 개수를 원하는 수준으로 변경합니다.
따라서 Conv 레이어 출력의 채널 개수를 그대로 사용하는 것이 아니고
사용자 정의 채널 개수를 사용하는 것으로 확인됩니다.
또한, 본문에서 d=dv=2dk=64, dk=dq 와 같은 예시 값을 제시한 부분이 있으니 사용자 정의값으로 생각하면 될 것 같습니다.
2) Conv 레이어가 연속될 경우 후반에는 메모리 저감 효과가 없을 것 같은 부분
표2의 우측을 보면 입력 크기라는 부분이 있는데
예를 들어서 좌측에 res3이라고 하면 ResNet50의 세 번째 ResNet Block의 뒤에 EfficientAttention 모듈을 추가했다는 것이고,
이 실험이 이미지 전체를 사용하는 것이 아니고 인식된 Block에 대하여 처리하는 것이므로
COCO 2017 이미지를 사용하면서 특정 입력 상황에 대한 예시를 확인한 것으로 보입니다.
(블럭이 어느 위치인지를 확인하는 것은 이 논문의 범위 외의 것)
따라서 Conv 레이어가 연속될 경우 후반에는 메모리 저감 효과가 없을 것 같은 의문은 이미지 전체를 사용한 실험이 아니기에 관련이 없습니다.
다만, 표2에서 COCO 2017 실험 이미지 중 어떤 이미지에 대한 것인지를 명시하지 않은 것은 아쉬운 부분입니다.
2021
STRUCTURED PREDICTION AS TRANSLATION BETWEEN AUGMENTED NATURAL LANGUAGES
2021.08.04
발표자: 김호승
발표일자: 2021-08-04
저자: Giovanni Paolini, Ben Athiwaratkun, Jason Krone, Jie Ma, Alessandro Achille, RISHITA ANUBHAI, Cicero Nogueira dos Santos, Bing Xiang, Stefano Soatto, Amazon Web Services
학회명: ICLR2021

Improved Representation Learning for Session-based Recommendation
2021.08.04
발표자: 양희윤
발표일자: 2021-08-04
저자: Sai Mitheran, Abhinav Java, Surya Kant Sahu, Arshad Shaikh
학회명: arXiv 2021

USAD: UnSupervised Anomaly Detection on Multivariate Time Series
2021.08.04
발표자: 신효정
발표일자: 2021-08-04
저자: Julien Audibert , Pietro Michiardi, Frédéric Guyard, Sébastien Marti, Maria A Zuluaga
학회명: KDD '20

Retrieval-Augmented Generation for Code Summarization Via Hybrid GNN
2021.08.04
발표자: 최윤석
발표일자: 2021-08-04
저자: Shangqing Liu, Yu Chen, Xiaofei Xie, Jingkai Siow, Yang Liu
학회명: ICLR 2021

Alleviating Cold Start Problems in Recommendation through pseudo labelling over knowledge graph
2021.08.04
발표자: 김가형
발표일자: 2021-08-04
저자: Riku Togashi, Mayu Otani, Shin'ichi Satoh
학회명: WSDM 2021
Unified Pre-training for Program Understanding and Generation (PLBART)
2021.08.04
발표자: 김사무엘
발표일자: 2021-08-04
저자: Wasi Uddin Ahmad, Saikat Chakraborty, Baishakhi Ray, Kai-Wei Chang
학회명: NAACL 2021

about confidence calibration
2021.07.29
발표자: 강석규
발표일자: 2021-07-29
저자: Chuan Guo, Geoff Pleiss, Yu Sun, Kilian Q. Weinberger
학회명: ICLR2017

Data-Free Knowledge Distillation for Heterogeneous Federated Learning
2021.07.29
발표자: 임지영
발표일자: 2021-07-29
저자: Zhuangdi Zhu
학회명: ICML 2021

CSI: Novelty Detection via Contrastive Learning on Distributionally Shifted Instances
2021.07.29
발표자: 강용훈
발표일자: 2021-07-29
저자: JiHoon Tack, Sangwoo Mo, Jongheon Jeong, Jinwoo Shin
학회명: NIPS 2020
Bayesian Deep Learning and a Probabilistic Perspective of Generalization
2021.07.21
발표자: 박은미
발표일자: 2021-07-21
저자: Adrew Golden wilson
학회명: NeurIPS_2020

CondenseNet V2: Sparse Feature Reactivation for Deep Networks
2021.07.21
발표자: 홍만수
발표일자: 2021-07-21
저자: Le Yang, Haojun Jiang, Ruojin Cai, Yulin Wang, Shiji Song, Gao Huang, Qi Tain
학회명: CVPR 2021
SSD : A Unified Framework for Self-Supervised Outlier Detection
2021.07.21
발표자: 노순철
발표일자: 2021-07-21
저자: Vikash Sehwag, Mung Chiang, Prateek Mittal
학회명: ICLR2021

Focal Self-attention for Local-Global Interactions in Vision Transformers
2021.07.21
발표자: 윤수현
발표일자: 2021-07-21
저자: Jianwei Yang, Chunyuan Li, Pengchuan Zhang, Xiyang Dai, Bin Xiao, Lu Yuan, Jianfeng Gao
학회명: arXiv 2021

The Secret Sharer: Evaluating and Testing Unintended Memorization in Neural Networks
2021.07.14
발표자: 조영성
발표일자: 2021-07-14
저자: Nicholas Carlini 외
학회명: USENIX Security Symposium 2019

CAT-Gen: Improving Robustness in NLP Models via Controlled Adversarial Text Generation
2021.07.14
발표자: 나철원
발표일자: 2021-07-14
저자: Tianlu Wang , Xuezhi Wang, Yao Qin, Ben Packer, Kang Lee, Jilin Chen, Alex Beutel, Ed Chi
학회명: EMNLP 2020

NEVER GIVE UP: LEARNING DIRECTED EXPLORATION STRATEGIES
2021.07.14
발표자: 채경훈
발표일자: 2021-07-14
저자: Adrià Puigdomènech Badia∗ Pablo Sprechmann∗ Alex Vitvitskyi Daniel Guo Bilal Piot Steven Kapturowski Olivier Tieleman Martín Arjovsky Alexander Pritzel Andew Bolt Charles Blundell
학회명: ICLR

Consistency-based Semi-supervised Learning for Object Detection
2021.06.30
발표자: 김유성
발표일자: 2021-06-30
저자: Jisoo Jeong, Seungeui Lee, Jeesoo Kim, Nojun Kwak
학회명: NeurIPS 2019

FixBi : Bridging Domain Spaces for Unusupervised Domain Adaptation
2021.06.30
발표자: 이진섭
발표일자: 2021-06-30
저자: Jaemin Na , Heechul Jung , Hyung Jin Chang , and Wonjun Hwang
학회명: CVPR 2021

LEWIS: Levenshtein Editing for Unsupervised Text Style Transfer
2021.06.30
발표자: Eden
발표일자: 2021-06-30
저자: Machel Reid, Victor Zhong
학회명: ACL-IJCNLP 2021 (Findings)

MINILM: Deep Self-Attention Distillation for Task-Agnostic Compression of Pre-Trained Transformers
2021.06.30
발표자: 신재민
발표일자: 2021-06-30
저자: Wenhui Wang, Furu Wei, Li Dong, Hangbo Bao, Nan Yang, Ming Zhou
학회명: NeurIPS 2020
찾아보니 qkv의 차원이 같은 것으로 보이는데 qk 곱하고 v를 곱한 것보다 kv 곱하고 q를 곱했을 때 어떻게 complexity가 감소할 수 있는지 이해하기가 어려웠습니다.