발표자 | 최윤석 |
---|---|
발표일자 | 2021-04-07 |
저자 | Danil Zugner, Tobias Kirschstein, Michele Catasta, Jure Leskovec, Stephan Gunnemann |
학회명 | ICLR 2021 |
논문지 |
Language-Agnostic Representation Learning of Source Code from Structure and Context (ICLR 2021)
댓글 10
-
신효정
2021.04.07 19:19
-
이지형
2021.04.07 19:26
코드를 가지고 AST를 구하는 방법은 코드의 구조를 가지고 트리형태로 그리는 것이라고 이해하면 될까요?
-> 맞습니다.
아니면 코드를 트리구조를 그리는 방법론이 다양하게 존재하는 건가요?
-> 구체적인 방법은 다를 수 있지만, 기본적으로는 parse tree를 만들기 때문에 하나라고 할 수 있습니다.
그리고 제가 이런 논문이 익숙하지 않아 잘 이해를 못했는데, 실험에서 말하는 `Monolingual Code Summarization`은 일부 코드를 입력으로 받아 이 코드를 문장으로 요약하는 건가요?
-> 코드를 요약하는 것이 아니라, 코드로 주어진 함수 명을 맞추는 것입니다.
그렇다면 precision, recall, f1은 사람이 모델이 만든 요약 문장을 보고 정답이다 아니다 라고 판단하게 되는건가요?
-> 함수 명을 맞추는것이니까 가능하지요 -
jinsuby
2021.04.07 19:20
기존 Self Attention은 Query와 Key에 Embedding vector 및 Position Encoding 정보를 반영한 반면,
제안하는 방법은 Context와 Structure(AST)의 정보를 Query와 Key에 Embedding하여 Self attention하는 모델구조를 가지고 있습니다.
프로그래밍 언어 데이터는 여러가지 문법에 의한 Structure를 갖게 되므로 AST와 같은 휴리스틱한 정보를 추출하여 Position 정보로 활용하면
직관적으로도 좋은 성능을 가질 것 같아 아이디어가 흥미롭다는 생각을 들었고, Self Attention 부분을 수식적으로 설명한 부분도 인상깊었습니다. 마지막으로, 여러가지 프로그래밍 언어 학습 데이터를 동시에 학습하여 성능이 향상된 것이 모델의 Structure 정보를 잘 반영하고 있다는 것을 보이고 있는 것 같습니다.
재미있는 주제의 발표 감사합니다. -
이지형
2021.04.07 19:24
코드상의 두 토큰 사이의 상대거리를 다양한 관점에서 평가해서, 상대거리를 AST를 이용해서 구하고 이것을 구조적 정보를 이용했다고 함. 전체적으로 novelty는 좀 약해 보이지만, 여러 언어를 통합 학습하면 언어가 달라고 코드 구조는 공유하기떄문에서 각 언어데 대한 성능이 좋아진다는 실험 결과는 흥미로워 보임 -
김누리
2021.04.07 20:01
단일 언어에서는 다양한 AST distance를 결합하여 성능을 올린 것으로 보이며, Multilingual code summarization 에서는 여러 언어의 코드 구조를 같이 학습할 수 있게 도울 수 있는 것으로 보입니다. 다만 이러한 학습이 잘 이루어질 수 있음에 대한 설명이 부족하여 아쉬운 것 같습니다. -
김호승
2021.04.07 20:09
좋은 발표내용 잘 들었습니다. Python, Java 등 프로그래밍 언어 구분을 안하고 data를 넣고 실험을 하였다고 하였는데, 이 부분에 contribution이 있는지 궁금하네요.
여러 언어의 구조를 같이 학습함으로써 얻는 이점을 잘 모르겠네요.
어떤 언어에서든 사용가능한 모델을 만들기를 원한 것 같은데,
단어의 빈도(def, int 등) 만으로도 구분이 가능한데, 오히려 bias만 더 생기는 결과가 나타나지 않을까 해서요. -
김사무엘
2021.04.07 22:12
Context, Structure를 동시에 고려하는 것, 다양한 Distance를 활용하는 것, Multilingual 하게 학습하는 것 등 이 논문의 특징 중 어떤 것에 가장 큰 Contribution이 있는지 궁금합니다. -
윤수현
2021.04.08 00:06
개인적으로 compiler(또는 interpreter )에서 생성되는 구조화된 데이터들간의 관계로 code data를 학습하는 데 도움이 되지 않을까 생각했는데, AST를 같이 학습시켜 유의미한 성능 향상이 있어 흥미롭게 들었습니다. 다만 Multilingual model의 경우 문법의 구조에 따라 성능이 다른 것 같은데, 어떤 요인이 영향을 미쳤을 지 궁금해지네요. 좋은 발표 감사합니다. -
노순철
2021.04.08 17:59
Attention하기 위해 상대적 거리를 활용한 부분이 흥미로운 논문이었습니다. 발표해주신 부분 중 Tree구조를 일반적인 graph구조와 달리 해석하여 여러가지 distance를 적용했다는 부분과 context와 AST를 1대1로 매칭시키는 idea를 특히 재미있게 들었습니다. 좋은 발표 감사드립니다. -
홍만수
2021.11.08 10:54
언어가 전부 OOD인데 객체를 쓰지 않는 언어에서 어떻게 반응할지 기대됩니다. 비록 언어는 달라도 구조상 비슷하기 때문에 작동하는 것 같은데 여기에 C와 같은 non-OOD지만 procedural, structured 언어를 넣어 같이 학습할 경우 어떻게 될까요?
2021
STRUCTURED PREDICTION AS TRANSLATION BETWEEN AUGMENTED NATURAL LANGUAGES
2021.08.04
발표자: 김호승
발표일자: 2021-08-04
저자: Giovanni Paolini, Ben Athiwaratkun, Jason Krone, Jie Ma, Alessandro Achille, RISHITA ANUBHAI, Cicero Nogueira dos Santos, Bing Xiang, Stefano Soatto, Amazon Web Services
학회명: ICLR2021

Improved Representation Learning for Session-based Recommendation
2021.08.04
발표자: 양희윤
발표일자: 2021-08-04
저자: Sai Mitheran, Abhinav Java, Surya Kant Sahu, Arshad Shaikh
학회명: arXiv 2021

USAD: UnSupervised Anomaly Detection on Multivariate Time Series
2021.08.04
발표자: 신효정
발표일자: 2021-08-04
저자: Julien Audibert , Pietro Michiardi, Frédéric Guyard, Sébastien Marti, Maria A Zuluaga
학회명: KDD '20

Retrieval-Augmented Generation for Code Summarization Via Hybrid GNN
2021.08.04
발표자: 최윤석
발표일자: 2021-08-04
저자: Shangqing Liu, Yu Chen, Xiaofei Xie, Jingkai Siow, Yang Liu
학회명: ICLR 2021

Alleviating Cold Start Problems in Recommendation through pseudo labelling over knowledge graph
2021.08.04
발표자: 김가형
발표일자: 2021-08-04
저자: Riku Togashi, Mayu Otani, Shin'ichi Satoh
학회명: WSDM 2021
Unified Pre-training for Program Understanding and Generation (PLBART)
2021.08.04
발표자: 김사무엘
발표일자: 2021-08-04
저자: Wasi Uddin Ahmad, Saikat Chakraborty, Baishakhi Ray, Kai-Wei Chang
학회명: NAACL 2021

about confidence calibration
2021.07.29
발표자: 강석규
발표일자: 2021-07-29
저자: Chuan Guo, Geoff Pleiss, Yu Sun, Kilian Q. Weinberger
학회명: ICLR2017

Data-Free Knowledge Distillation for Heterogeneous Federated Learning
2021.07.29
발표자: 임지영
발표일자: 2021-07-29
저자: Zhuangdi Zhu
학회명: ICML 2021

CSI: Novelty Detection via Contrastive Learning on Distributionally Shifted Instances
2021.07.29
발표자: 강용훈
발표일자: 2021-07-29
저자: JiHoon Tack, Sangwoo Mo, Jongheon Jeong, Jinwoo Shin
학회명: NIPS 2020
Bayesian Deep Learning and a Probabilistic Perspective of Generalization
2021.07.21
발표자: 박은미
발표일자: 2021-07-21
저자: Adrew Golden wilson
학회명: NeurIPS_2020

CondenseNet V2: Sparse Feature Reactivation for Deep Networks
2021.07.21
발표자: 홍만수
발표일자: 2021-07-21
저자: Le Yang, Haojun Jiang, Ruojin Cai, Yulin Wang, Shiji Song, Gao Huang, Qi Tain
학회명: CVPR 2021
SSD : A Unified Framework for Self-Supervised Outlier Detection
2021.07.21
발표자: 노순철
발표일자: 2021-07-21
저자: Vikash Sehwag, Mung Chiang, Prateek Mittal
학회명: ICLR2021

Focal Self-attention for Local-Global Interactions in Vision Transformers
2021.07.21
발표자: 윤수현
발표일자: 2021-07-21
저자: Jianwei Yang, Chunyuan Li, Pengchuan Zhang, Xiyang Dai, Bin Xiao, Lu Yuan, Jianfeng Gao
학회명: arXiv 2021

The Secret Sharer: Evaluating and Testing Unintended Memorization in Neural Networks
2021.07.14
발표자: 조영성
발표일자: 2021-07-14
저자: Nicholas Carlini 외
학회명: USENIX Security Symposium 2019

CAT-Gen: Improving Robustness in NLP Models via Controlled Adversarial Text Generation
2021.07.14
발표자: 나철원
발표일자: 2021-07-14
저자: Tianlu Wang , Xuezhi Wang, Yao Qin, Ben Packer, Kang Lee, Jilin Chen, Alex Beutel, Ed Chi
학회명: EMNLP 2020

NEVER GIVE UP: LEARNING DIRECTED EXPLORATION STRATEGIES
2021.07.14
발표자: 채경훈
발표일자: 2021-07-14
저자: Adrià Puigdomènech Badia∗ Pablo Sprechmann∗ Alex Vitvitskyi Daniel Guo Bilal Piot Steven Kapturowski Olivier Tieleman Martín Arjovsky Alexander Pritzel Andew Bolt Charles Blundell
학회명: ICLR

Consistency-based Semi-supervised Learning for Object Detection
2021.06.30
발표자: 김유성
발표일자: 2021-06-30
저자: Jisoo Jeong, Seungeui Lee, Jeesoo Kim, Nojun Kwak
학회명: NeurIPS 2019

FixBi : Bridging Domain Spaces for Unusupervised Domain Adaptation
2021.06.30
발표자: 이진섭
발표일자: 2021-06-30
저자: Jaemin Na , Heechul Jung , Hyung Jin Chang , and Wonjun Hwang
학회명: CVPR 2021

LEWIS: Levenshtein Editing for Unsupervised Text Style Transfer
2021.06.30
발표자: Eden
발표일자: 2021-06-30
저자: Machel Reid, Victor Zhong
학회명: ACL-IJCNLP 2021 (Findings)

MINILM: Deep Self-Attention Distillation for Task-Agnostic Compression of Pre-Trained Transformers
2021.06.30
발표자: 신재민
발표일자: 2021-06-30
저자: Wenhui Wang, Furu Wei, Li Dong, Hangbo Bao, Nan Yang, Ming Zhou
학회명: NeurIPS 2020
아니면 코드를 트리구조를 그리는 방법론이 다양하게 존재하는 건가요?
그리고 제가 이런 논문이 익숙하지 않아 잘 이해를 못했는데, 실험에서 말하는 `Monolingual Code Summarization`은 일부 코드를 입력으로 받아 이 코드를 문장으로 요약하는 건가요? 그렇다면 precision, recall, f1은 사람이 모델이 만든 요약 문장을 보고 정답이다 아니다 라고 판단하게 되는건가요?