본문 바로가기

Paper

[논문-WIP] Lambda Network(ICLR, 2021)

Abstract

self-attention을 대신할 sequence data의 input과 contexts 사이의 관계를 모델링하는 lambda layer를 제시한다. lambda layer contexts을 선형함수로 변환해서 각 인풋에 적용한다. linear attention 처럼 cost가 높지 않음에도 불구하고 linear attention이 하지 못하는 contexts, 위치 기반 상호작용을 모델링하여 큰 구조화된 입력에 적용할 수 있다. CV task 에서 기존 CNN, attention 보다 성능이 좋았다.

Intro

long dependent sequence data 처리는 항상 머신러닝의 문제였다. self attetion은 이러한 데이터 구조를 모델링하는데 효과적이지만 cost가 높다. linear attention은 cost는 낮지만, 픽셀간 상대적 거리와 같은 데이터 구조를 모델링하는데 실패했다. 

lambda layer는 적은 cost로 long dependent sequence data 구조를 효과적으로 모델링 한다. 핵심 아이디어는 contexts를 선형함수(matrix)로 변환하고 이를 query에 적용(행렬 곱)하는 것이다.

attention과 lambda 비교

<contribution>

1. lambda layer는 attention map 없이 content-based, position-based interaction을 모델링 할 수 있다.

2. lambda layer는 여러 CV task에서 CNN과 attention보다 cost도 낮고 성능도 좋았다.

3. 여러 self-attention의 변형 모델(linear attention)보다 cost 효율 좋다

 

MODELING LONG-RANGE INTERACTIONS

 

 

3.1. LAMBDA LAYER: TRANSFORMING CONTEXTS INTO LINEAR FUNCTIONS.