발표자 | 박은미 |
---|---|
발표일자 | 2021-04-21 |
저자 | Andrew Brock |
학회명 | |
논문지 |
제목: High-Performance Large-Scale Image Recognition Without Normalization
저자: Andrew Brock, Soham De, Samuel L. Smith, Karen Simonyan
For completeness, in Table 6 of the Appendix we also report the performance of our model architectures when trained with batch normalization instead of the NF strategy. These models achieve slightly lower test accuracies than their NF counterparts and they are between 20% and 40% slower to train, even when using highly optimized batch normalization implementations without cross-replica syncing.
Drop here!
Drop here!
Drop here!
Drop here!
Drop here!
댓글 11
-
이지형
2021.04.21 19:15
Normalization을 왜 사용하는지 왜 작동을 하는지 한번 더 고찰한 논문. 고찰로부터 얻은 intuition을 기반으로 새로운 Normalization을 제안함. -
김호승
2021.04.21 19:17
Normalization에 대하여 잘 정리된 논문과 설명 감사드립니다. 단순하게 공식처럼 사용하고 있는 것들이 왜 있는지, 어떻게 변형하면 좋을지 생각해보는 시간이었습니다. -
신재민
2021.04.21 19:37
좋은 접근이라고 생각합니다. 기존의 것을 대체할 새로운 파라미터를 개발할 때 활용하면 도움이 될 것 같은 방법론이라고 생각합니다. -
jinsuby
2021.04.21 19:41
Batch Normalization 을 진행하는 과정이 Computing 시간이 다른 작업들에 비해 어느정도 차지하는지 궁금합니다. -
박은미
2021.04.22 00:29
논문의 Appendix의 table 6를 본문에 넣었습니다. 동일 model에 NF를 제외하고 batch-normalization으로 train 했을 때 time과 accuracy 를 비교하실 수 있습니다.
deep 해질 수록 batch normalization이 차지하는 비율이 줄어들긴 하지만 16%~50% 가량 차지하고 있습니다. -
김누리
2021.04.21 19:56
Technique에 집중한 듯한 내용이었습니다. Batch norm. 외에도 고려해 볼 만한 부분이 있는지 생각해 봐야겠습니다. -
박은미
2021.04.22 07:57
네~ 워낙 Batch normalization을 remove 하는데 중점을 둔 논문이라... 다만 Appendix에 실험 방법이나, negative result등이 자세히 적혀 있어서 실험하거나 모델을 새로 만들 때 필요한 관점 정도가 재밌게 읽을 수 있는 부분인 것 같습니다.
본 논문 저자들의 20년도 Resnet에서의 B/N 역할 을 연구한 "Batch normalization biases residual blocks towards the identity function in deep networks.",
21년도 NF-Net 구조를 만든 "Characterizing signal propagation to close the performance gap in unnormalized ResNets," 그리고 오늘 발표한 논문까지 'B/N 삭제' 주제가 계속되고 있는데요. 제가 SOTA 달성을 위한 논문을 발표해서 더 technique에 치중한 것처럼 느껴질 수도 있으나, 앞에 2편 논문에서는 B/N을 대체하기 위해 ResNet에서의 BN의 역할, 메커니즘을 연구, 규명하고 있습니다. "BYOL works even without batch statistic" 등의 논문도 검색되는 것을 보니, B/N 대체할 수 있는 효율적인 regularization 방법과 B/N 을 삭제해도 performance를 유지하게 해주는 기법을 계속 연구하는 것 같습니다. -
채경훈
2021.04.27 18:08
Batch normalization 이 최대 50%나 computing 시간을 잡는다는것이 놀라웠고 저자가 제안한 방법은 네트워크가 클 수록 효용성이 좋아질 것 같습니다. computing cost 가 적은거 대비 cost 수렴 속도가 좋은것 같습니다. 향후 연구가 더 되서, 컴퓨팅 파워가 약하거나 하이퍼 파라미터 튜닝 등의 연구를 할 때 유용 할 것 같습니다. -
임지영
2021.04.28 17:26
그냥 그렇구나 하고 생각했던 normalization 에 대해 다시 한번 생각하게 되었습니다. 실험이 많아서 좀 더 자세히 살펴 보아야 할 것 같았습니다. 발표 잘 들었습니다. 감사합니다. :) -
김가형
2021.04.28 17:29
Batch Norm.을 당연하게 사용했었는데, Batch Norm이 가지는 단점들에게 대해 생각해보는 시간이었습니다. Gradient Clipping 방식도 이번 발표를 통해 알게 되었습니다. 배치 사이즈를 크게 가지고 갈 수 있다는 점에서 앞으로 실험 시 필요하면 사용하면 좋겠다는 생각이 들었습니다. 좋은 발표 감사합니다. -
윤수현
2021.04.28 17:40
최근 SOTA에서 종종 보이던 NFNet 모델에 대해 궁금했었는데 좋은 발표 감사합니다. 후반부에는 normalization보다는 튜닝 기법에 집중한 듯한 느낌도 있어 batch norm을 사용했어도 좋은 성능이 나오지 않았을까 하는 생각도 듭니다.
2021
Revisiting Skeleton-based Action Recognition
2021.12.21
발표자: 배현재
발표일자: 2021-12-21
저자: Haodong Duan, Yue Zhao, Kai Chen, Dian Shao, Dahua Lin, Bo Dai
학회명: CVPR 2021
On the Transferability of Adversarial Attacks against Neural Text Classifier
2021.12.21
발표자: 나철원
발표일자: 2021-12-21
저자: Liping Yuan et al.
학회명: EMNLP 2021
A2-FPN: Attention Aggregation based Feature Pyramid Network for Instance Segmentation
2021.12.21
발표자: 임지영
발표일자: 2021-12-21
저자: Miao Hu
학회명: CVPR 2021
Unsupervised Out-of-Distribution Detection by Maximum Classifier Discrepancy(cover)
2021.12.15
발표자: 노순철
발표일자: 2021-12-15
저자: Qing Yu, Kiyoharu Aizawa
학회명: ICCV 2019
CMT: Convolutional Neural Networks Meet Vision Transformers
2021.12.15
발표자: 김유성
발표일자: 2021-12-15
저자: Jianyuan Guo, et al.
논문지: arXiv
Proximal Policy Optimization Algorithms
2021.12.15
발표자: 길창배
발표일자: 2021-12-15
저자: John Schulman, Filip Wolski, Prafulla Dhariwal, Alec Radford, Oleg Klimov
논문지: arxiv 2017
Understanding Dimensional Collapse In Contrastive Self-Supervised Learning
2021.11.30
발표자: 이진섭
발표일자: 2021-11-30
저자: Li Jing , Pascal Vincent, Yann LeCun, Yuandong Tian
학회명: ICLR 2022
Adversarial Robustness Across Representation Spaces
2021.11.30
발표자: 조영성
발표일자: 2021-11-30
저자: Pranjal Awasthi, George Yu, Chun-Sung Ferng, Andrew Tomkins, Da-Cheng Juan
학회명: CVPR 2021
Generating Adversarial Computer Programs using Optimized Obfuscations
2021.11.30
발표자: 김사무엘
발표일자: 2021-11-30
저자: Shashank Srikant, Sijia Liu, Tamara Mitrovska, Shiyu Chang, Quanfu Fan, Gaoyuan Zhang, Una-May O’Reilly
학회명: ICLR 2021
MAE: Masked Autoencoders Are Scalable Vision Leanrners
2021.11.23
발표자: 강석규
발표일자: 2021-11-23
저자: Kaiming He, Xinlei Chen, Saining Xie, Yanghao Li, Piotr Doll´ar, and Ross Girshick
FlexMatch: Boosting Semi-Supervised Learning with Curriculum Pseudo Labeling
2021.11.23
발표자: 김누리
발표일자: 2021-11-23
저자: Zhang, Bowen, et al.
학회명: Advances in Neural Information Processing Systems 34 (2021)
Game of Gradients: Mitigating Irrelevant Clients in Federated Learning
2021.11.23
발표자: 강용훈
발표일자: 2021-11-23
저자: Lokesh Nagalapatti, Ramasuri Narayanam
학회명: AAAI 2021
Provable Guarantees for Self-Supervised Deep Learning with Spectral Contrastive Loss
2021.11.23
발표자: 안재한
발표일자: 2021-11-23
저자: Jeff Z. HaoChen, Colin Wei, Adrien Gaidon, Tengyu Ma
학회명: NeurIPS2021
DGMN: Dynamic Graph Message Passing Networks
2021.11.16
발표자: 신재민
발표일자: 2021-11-16
저자: Li Zhang, Dan Xu, Anurag Arnab, Philip H.S. Torr
학회명: CVPR 2020
Dynamically Weighted Balanced Loss: Class Imbalanced Learning and Confidence Calibration of Deep Neural Networks
2021.11.16
발표자: 박은미
발표일자: 2021-11-16
저자: K. Ruwani M. Fernando
논문지: IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS
Dual Sparse Attention Network for Session-based Recommendation(AAAI-21)
2021.11.16
발표자: 김가형
발표일자: 2021-11-16
저자: Jiahao Yuan, Zihan Song, Mingyou Sun, Xiaoling Wang, Wayne Xin Zhao
학회명: AAAI 2021
Graph-Enhanced Multi-Task Learning of Multi-Level Transition Dynamics for Session-based Recommendation
2021.11.16
발표자: 양희윤
발표일자: 2021-11-16
저자: Chao Huang, Jiahui Chen, Lianghao Xia, Yong Xu, Peng Dai, Yanqing Chen, Liefeng Bo, Jiashu Zhao, Jimmy Xiangji Huang
학회명: AAAI 2021
Cross-lingual Language Model Pretraining
2021.11.09
발표자: 고설준
발표일자: 2021-11-09
저자: Alexis Conneau, Guillaume Lample
학회명: NeurIPS 2019
A Strong Baseline for Query Efficient Attacks in a Black Box Setting
2021.11.09
발표자: 나철원
발표일자: 2021-11-09
저자: Rishabh Maheshwary∗, Saket Maheshwary∗ and Vikram Pudi
학회명: EMNLP 2021
Deep Leakage from Gradients
2021.11.09
발표자: 홍만수
발표일자: 2021-11-09
저자: Ligeng Zhu, Zhijian Liu, Song Han
학회명: NeurIPS 2019