논문 리스트

TabTransformer: Tabular Data Modeling Using Contextual Embeddings (Xin Huang, arXiv 2022)

Paper Link: https://arxiv.org/abs/2012.06678
Talk: https://www.youtube.com/watch?v=-ZdHhyQsvRc
AWS Code: https://github.com/awslabs/autogluon/tree/master/tabular/src/autogluon/tabular/models/tab_transformer
Other Repo 1: https://github.com/lucidrains/tab-transformer-pytorch
Other Repo 2: https://github.com/timeseriesAI/tsai/blob/main/tsai/models/TabTransformer.py

  • by AWS
  • Embedding layer로서 Transformer를 사용
  • Tabular데이터에 대해 각 column에 대하여 Column Embedding 수행 후 Trasformer를 사용해 context embeddings를 생성
  • 생성된 context embeddings는 concat하여 MLP classifier로 들어감
  • Column Embedding
    • 한 column이 d개의 클래스를 가지고 있을땐 missing value도 인덱스를 부여해 0부터 d+1까지의 lookup table로 인코딩
    • one-hot보다 parametric embedding을 학습하는것이 더 나은 성능을 보여줌
    • scalar column에 대해서는 3가지 방법의 re-scaling (quantiles, normalization, log)과 quantization을 방법을 모두 사용하여 
    • column identifier와  feature value를 따로 embedding하여 concat
    • embedding dimension의 4, 28을 각각 column과 value dim으로 사용
  • Transformer 아키텍쳐
    • Transformer hiddem dim: 32
    • Transformer layer: 6
    • Transformer multi-head: 8

 

MET: Masked Encoding for Tabular Data (Kushal Majmundar, Arxiv 2022) 

Paper Link: https://arxiv.org/abs/2206.08564

  • by Google Research India
  • Masked-AutoEncoder(MAE)방식의 SSL을 사용하여 tabular data의 embedding을 학습
  • MAE Contributions:
    1. Downstream 테스크에 embedding을 전달할때 column별 context embedding을 average가 아닌 concatnation하여 전달
    2. 입력 데이터에 adversarial perturbation을 추가
  • 인코더와 디코더 모두 Transformer사용
  • mask되지 않은 column에 한하여,  column identifier로서 학습가능한 e크기이 embedding과 feature value의 scalar를 concatation해 e+1 차원의 embedding이 생성되어 Transformer 인코더의 입력으로 들어감
  • mask된 column은 column identifier와 학습가능한 special token으로서의 mask scalar를 contatation하여 masked embedding을 생성
  • Transformer 인코더를 커쳐나온 context embedding에 masked embedding을 합쳐 Transformer 디코더에 넣어 전체 column을 복원
  • Downstream task에 전달할때 contexted embedding column들에 대하여 average가 아닌 concat하여 전달

 

Tabular Transformers for Modeling Multivariate Time Series (Inkit Padhi, ICASSP 2021)

Paper Link: https://arxiv.org/abs/2011.01843
Code: https://github.com/IBM/TabFormer

  • by IBM
  • Tabular 데이터에 대한 BERT 및 GPT스타일의 sequence encodeing
  • TabBERT
    • 시간에 따른 각 row를 Field Transforer를 사용하여 row embeeding한 다음 token으로서 BERT에 입력
    • Mask는 row단위가 아닌 row의 field단위로 mask하여 이를 예측하도록 학습
  • TabGPT
    • 각 row들을 [SEP]로 분리하면서 연속되게 이어서 입력으로 주며, 현재의 row가 들어갔을때 미래의 row들을 예측하도록 학습
  • Continuous column은 quantization을 수행하여 categorical column으로 변환

 

TAPEX: Table Pre-training via Learning a Neural SQL Executor (Qian Liu, ICLR 2022)

Paper Link: https://arxiv.org/abs/2107.07653
Code: https://github.com/microsoft/Table-Pretraining

  • by Microsoft
  • 아키텍쳐로 BART를 사용

 

Revisiting Deep Learning Models for Tabular Data (Yura Gorishniy, NeurIPS 2021)

Paper Link: https://arxiv.org/abs/2106.11959v2
Code: https://github.com/Yura52/tabular-dl-revisiting-models

  • by Yandex
  • Feature Tokenizer를 통과한 토큰들과 [CLS]토큰을 사용한 prediction
  • 각 column별로 weight와 bias가 있어 이를 개별 embedding
  • catetorical column의 경우 lookup table에서 각 카테고리에 해당하는 벡터를 onehot vector와 곱해준 뒤 각 column에 해당하는 bias vector를 더해줌

 

 

On Embeddings for Numerical Features in Tabular Deep Learning (Yura Gorishniy, arXiv 2022)

Paper Link: https://arxiv.org/abs/2203.05556v1
Code: https://github.com/Yura52/tabular-dl-num-embeddings

  • by Yandex
  • Tabular 데이터의 numerical feature에 대한 feature binning을 어떻게 하는게 좋은지에 대한 연구 
  • Token화 한 tabular 데이터를 Transforemr에 태워 prediction 테스크 수행
  • scalar를 바로 넣어주는것 보다 one-hot의 개선된 버전인 PLE(piecewise linear encodding)을 사용할 경우 CatBoost보다 나은 성능을 보여주기도 함

 

Revisiting Pretraining Objectives for Tabular Deep Learning (Ivan Rubachev, arXiv 2022)

Paper Link: https://arxiv.org/abs/2207.03208
Code: https://github.com/puhsu/tabular-dl-pretrain-objectives
  • by Yandex

 

그 외 깃헙 레포 리스트

Author: Jinwoo Kim, Tien Dat Nguyen, Seonwoo Min, Sungjun Cho, Moontae Lee, Honglak Lee, Seunghoon Hong
Paper Link: https://arxiv.org/abs/2207.02505

Code: https://github.com/jw9730/tokengt

 

Author  : Kyle Aitken, Vinay V Ramasesh, Yuan Cao, Niru Maheswaranathan
Paper Link : https://arxiv.org/abs/2110.15253

 

Author : Sergey Levin
Paper Link : https://openreview.net/forum?id=L55-yn1iwrm

Talk : @Seminar Series in Cognitive Computing at Baidu Research https://www.youtube.com/watch?v=5Tdndu275AY

 

Author : Yujin Tang, David Ha
Paper Link : https://arxiv.org/abs/2109.02869

Site: https://attentionneuron.github.io/

 

  • World model로 알려진 Google Brain의 David Ha의 연구
  • Attention mechanism ('AttentionNeuron'이라 명명) 을 RL policy의 입력단에 추가하여, 센서시스템에 permutation-invariant한 agent을 학습하도록 함

 

  •  Atari-pong, Pybullet Ant, CartPole, CarRasing 환경에서 입력 dimension을 임의로 shuffle해가며 실험한 결과, 대부분 agent의 성능이 shuffle을 하지 않은경우과 비슷하게 동작

 

  • Shuffling에도 불구하고 permutation invraiant한 output을 보여줌
  • t-SNE 결과에서도 shuffle에 관계없이 동일한 state는 같은 space로 맵핑

 

 

개인적인 생각

  • 이 논문 자체는 아이디어도 간단하고 toy 모델에서 실험됐지만, agent의 generalization 능력은 real-world 측면에서 활용가능성이 높아 보인다.
  • 특히 센서 시스템이 다이나믹하게 변하는 대규모 application (공장, 데이터센터, 교통) 등에 활용 가능할것 같다.
  • Demo와 visualization은 연구의 contribution을 납득시키는데 있어 정말 정말 중요하다.

논문 리스트

  • A Transformer-Based Variational Autoencoder for Sentence Generation (IJCNN 2019)
    Paper: https://ieeexplore.ieee.org/document/8852155
    - Domain: Natural language generation
    - RNN기반 VAE의 long-term input에 대한 posterior collapse와 같은 문제를 해결하고자함
    - Encoder는 기존 transformer와 구조는 같고 출력이 Gaussian distribution
    - Test조건에선 decoder와 샘플링 파트만 사용한다고 가정하여 cross-attention 레이어는 제거하고 마지막에 autoregressive LSTM generator를 추가

 

  • Transformer VAE: A Hierarchical Model for Structure-aware and Interpretable Music Representation Learning (ICASSP 2020)
    Paper: https://ieeexplore.ieee.org/document/9054554
    Related blog: https://mip-frontiers.eu/2020/08/20/transformer-vae.html
    - Domain: Music generation
    - Structure awareness와 interpretability를 모두 만족하는 음악생성모델을 만들고자 함
    - Encoder는 기존 transformer와 구조는 같고 네트워크 출력으로 입력 토큰 개수 만큼의 Gaussian distribution
    - Decoder역시 기존의 transformer구조와 같이 autoregressive한 구조이며, cross-atention을 encoder에서 샘플된 입력 길이 만큼의 latent varible과 수행

 

  • T-CVAE: Transformer-Based Conditioned Variational Autoencoder for Story Completion (IJCAI 2019)
    Paper: https://www.ijcai.org/proceedings/2019/727
    Code: https://github.com/sodawater/T-CVAE
    - Domain: Story completion
    - 문단의 맥락을 파악하여 빈 문장을 적절하게 생성하고자 함
    - Encoder와 decoder의 입력이 같은 distrubution set이어서 layer를 공유함
    - Encoder는 [나머지 문장; 생성중인 문장]을 self-attention하여 latent variable을 추론하고, decoder는 생성중인 문장을 [encoder 각 레이어 output; decoder의 output]에 cross-attention
    - generator는 deocoder의 output을 condition으로하면서 샘플된 z를사용하여 빈 문장을 autoregressive하게 reconstruction 

 

  • Variational Transformer Networks for Layout Generation (CVPR 2021)
    Paper: https://arxiv.org/abs/2104.02416
    Blog: https://ai.googleblog.com/2021/06/using-variational-transformer-networks.html
    - Domain: Layout design

    - 그럴듯한 레이아웃을 가능한 다양하게 생성하고자 함
    - self-attention레이어가 주어진 레이아웃 내부의 element사이의 관계를 파악하며 representation distribution에 압축
    - VAE에 Transformer의 attention mechanism을 추가하여 생성 레이아웃의 context이해와 다양성을 동시에 추구
    - BERT의 auxiliary token과 같은 역할로서 encoder output을 bottleneck으로 사용 후 샘플된 z를 autoregressive decoder의 첫번째 입력으로 넣어줌
    - Decoder는 cross-attention이 빠져 상대적으로 덜 expressive한 구조이지만 그 덕분에 posterior collapse는 줄어듬

 

  • Attention-based generative models for de novo molecular design (Chemical Science 2021)
    Paper: https://pubs.rsc.org/en/content/articlelanding/2021/SC/D1SC01050F
    Code: https://github.com/oriondollar/TransVAE
    - Domain: Molecular design

    - 분자 구조 생성에 있어서 RNN, RNN+Attention, TransformerVAE의 장단점을 비교하고자 함
    - Encoder는 기존 transformer와 구조는 같고 출력부분에 Convolution bottleneck을 추가해 Gaussian distribution을 추론 
    - Decoder역시 기존의 transformer구조와 같이 autoregressive한 구조이며, cross-atention을 encoder에서 샘플된 입력 길이 만큼의 latent varible과 수행
    - RNN + Attention 이 TransformerVAE보다 OOD에 더 잘 대응하는 반면, TransformerVAE가 더 interpretable 함

 

  • Transformer-based Conditional Variational Autoencoder for Controllable Story Generation (Arxiv 2021) 
    Paper: https://arxiv.org/abs/2101.00828
    Code: https://github.com/fangleai/TransformerCVAE
    - Domain: Story generation
    - Encoder는 unmasked/bi-directional self-attention 구조이며 출력부분에 attention-average block과 bottleneck을 추가해 Gaussian distribution을 추론 
    - Decoder는 GPT-2의 autoregressive한 구조이며, encoder에서 샘플된 latent variable을 1. input, 2. pseudo self-attention, 3. softmax에 전달하는 구조를 각각 시도
    - Pre-trained model을 사용하여 posterior collapse 줄이려 시도

 

 

  • Finetuning Pretrained Transformers into Variational Autoencoders (Workshop on EMNLP 2021)
    Paper: https://arxiv.org/abs/2108.02446
    Code: https://github.com/seongminp/transformers-into-vaes
    - Domain: Language modeling
    - Posterior collapse를 보다 효과적으로 줄이고자 함
    - Pretrained-T5 모델을 VAE에 사용하되 decoder는 self-attention없이 encoder에서 샘플된 z와 cross-attention만을 진행하여 decoder의 expressive power를 제한
    - KL loss를 0으로 두고 학습한 후 full VAE를 학습하는 두 단계로 진행

 

 

 

그 외 깃헙 레포 리스트

 

개인적인 생각

  • Sequence 데이터에 대한 latent space를 형성하고자 하면서도 더 나은 context의 이해를 위해 attention을 사용하려는 시도에 대한 논문들을 훑어보았다.
  • 대부분 크게 다르지 않았지만, decoder 부분 self-attention의 expressive power가 오히려 sequential VAE의 posterior collapse를 악화시킬수도 있기에 위 연구들 중에서는 이를 피하기위한 고민을 한 논문들과 context representation이 실제로 얼마나 잘 학습되었는지를 보여주는 논문들이 다른 연구들보다 상대적으로 의미있는것 같다.

Author : Jing Yu Koh, Honglak Lee, Yinfei Yang, Jason Baldridge, Peter Anderson
Paper Link : https://arxiv.org/abs/2105.08756v1

Video: https://www.youtube.com/watch?v=HNAmsdk7lJ4 

 

  • 구글 Dreamer의 실내 네비게이션 버전 연구
  • Dreamer의 핵심인 World model을 실내 이미지에 적용함
  • Dreamer가 아타리 게임, DeepMind control suit와 같은 시뮬레이션에만 적용됐다는 한계가 있은 반면, 이 연구에선 real world 이미지를 사용한다는 의의가 있음 
  • 실내 구조에 대한 semantic & depth 이미지를 world model로 학습하고, output을 GAN을 써서 좀더 사실적으로 렌더링
  • 처음보는 실내환경에 대한 과거 path 이미지를 받으면 이후 path를 사실적으로 Dream하는것을 보여줌.
  • 또한 VLN (Vision-and-Language Navigation) downstream 테스크에서 성능의 향상을 보여줌
  • Pathdreamer model architecture

 

  • 단순히 그럴듯한 실내 이미지를 생성하는것이 아니라, 실내 구조에 대한 공간적 시간적 의미를 모두 담고있는 world model을 가지고 'path'를 생성해낸다는 점에서 의의가 있어보임. 저자의 말을 빌면 embodied navigation에 대한 가능성을 보여준것.

Author : Annie Xie, Dylan P. Losey, Ryan Tolsma, Chelsea Finn, Dorsa Sadigh
Paper Link : arxiv.org/abs/2011.06619

Website : sites.google.com/view/latent-strategies/

Talk : www.youtube.com/watch?v=-gCFcgb08jo

 

+ Recent posts