My Vision, Computer Vision

E2E 자율주행 모델의 편향 문제에 대하여, TransFuser++ 본문

Paper

E2E 자율주행 모델의 편향 문제에 대하여, TransFuser++

gyuilLim 2026. 1. 20. 20:51
 

Hidden Biases of End-to-End Driving Models

End-to-end driving systems have recently made rapid progress, in particular on CARLA. Independent of their major contribution, they introduce changes to minor system components. Consequently, the source of improvements is unclear. We identify two biases th

arxiv.org


Overview

  • 본 논문은 TransFuser의 후속 연구로, TransFuser++ 모델을 제안한다. 네트워크 구조는 거의 비슷하지만 설계 철학같은 것들이 새로 반영되었다.

논문의 주장

  • 본 논문은 제목처럼 자율주행 모델의 편향을 지적한다. 두가지가 있는데 첫번째는 모델이 타겟 포인트(Target Point, TP)에 과하게 의존한다는 것이고 두번째는 모델이 불확실성에 대비하기 위해 출력 속도를 (전문가와 비교했을 때) 비결정적으로 출력한다는 것이다.

1. A shortcut for recovery

  • TP(Target Point)는 자율주행 모델이 출력하는 2차원 점으로, 현재 시점에서 이동할 직후의 위치를 의미한다. 로컬 플래너가 출력하는 값으로, 네비게이션 커맨드(우회전, 직진 등) 보다 더 가까운 미래이다.
  • TransFuser를 포함한 많은 자율주행 모델은 전문가(Expert)의 Waypoint를 따라가게끔 모방 학습하는데, 이 때 타겟 포인트에 과도하게 의존하는 문제가 생긴다.

 

  • 위 그림에서 (a)는 네비게이션 커맨드로 학습한 모델이고, (b)는 TP로 학습한 모델이다. 만약 자율주행 모델이 도로위 차선에 사선으로 놓여져있다고 할 때, (a)는 돌아가야할 차선을 찾지 못하고 (b)는 금방 원래 경로를 회복하는 모습이다. (c)도 마찬가지.
  • 이 예시처럼 타겟 포인트(빨간색 점)이 현재 위치에서 가까운 상황에서는 도움이 될 수 있다.

  • 하지만 위 그림처럼 타겟 포인트가 현재 위치에서 멀리 떨어져 있을때는 그렇지 않다. 전문가의 Waypoint를 모방 학습한 두 모델 (a), (b) 모두 TP에 치우쳐진 출력을 내게되어 충돌이 발생할 수 있다. 논문에서는 이 현상을 A shortcut for recovery라고 부른다.

  • 저자들은 이 문제의 원인이 피쳐맵을 샘플링하는 단계에서 발생한다고 주장한다. 원래 모델은 위 사진에서 Option 1로 연산된다. 피쳐맵을 풀링하기 위해 사용하는 GAP(Global Average Pooling) 방법이 단순히 수치들을 평균내어 합치는 것이기 때문에, 피쳐맵의 위치 정보가 뭉개지면서 손실되어 위와 같은 문제가 발생하게 된다는 것이다.
  • 그래서 Option 2를 선택한다. GAP 대신 Cross Attention을 사용하여 풀링하는 것이다. 이 방법은 기존 연구(Interfuser)에서도 사용되었다고 언급한다. 목적은 피쳐맵의 위치 정보를 최대한 보존하면서 풀링하는 것이다.
  • 또한 아키텍쳐 뿐만 아니라 증강도 추가한다. Geometric Shift Augmentation라는 방법인데, 연속적인 시점의 이미지 입력에서 하나의 이미지만 차가 틀어진 시점에서 보이도록 이미지를 시프트하는 것이다. 그 다음 시점의 이미지는 정상적인 방향이기 때문에, 에고 차량이 차선에서 벗어난 경우, 틀어져있는 경우 등을 대비할 수 있게 된다.
  • 결과적으로 (c) 처럼 TP에 치우치지 않고 차선을 잘 따라간다.

The ambiguity of waypoints

  • Waypoint는 전문가가 출력한 2차원 점들의 연속이다. 하지만 자율주행 모델은 이 Waypoint로부터 조향과 속도값을 출력해내야 한다. 즉 2차원 점에 경로와 미래 속도(Future Velocity)가 얽혀있는 것이다.

  • 전문가의 출력 양상을 보면(주황색) 속력이 29, 18, 7, 0인 지점에서 결정론적으로 행동한다. 각각 도시 도로 주행, 교차로 감속, 보행자 근처 감속, 정지 상황 등에 대응될 수 있다.
  • 하지만 전문가의 출력을 모방 학습한 TransFuser의 출력 속력은 0~29키로까지 전반적으로 걸쳐있다. 전문가의 속력과 경로(방향)가 하나의 점으로 얽힌 Waypoint를 학습하기 때문에, 출력이 불확실하고 모호해지는 것이다.
  • 이를 해결하기 위해 저자들은 Waypoint에서 경로와 속도를 분리하는 것을 목표로, 원래 같은 시간 간격으로 찍던 Waypoint를 같은 거리 간격으로 찍게 한다. 이렇게되면 차량의 목표 속도를 정하기 위한 별도의 방법이 필요해지기 때문에 별도의 MLP 회귀 네트워크를 추가한다.
  • 이런 방법은, Waypoint에서 속도를 분리해냈기 때문에 모델을 조금 더 명확하게(해석적으로) 만들 수 있다는 장점이 있다. 적어도 잘못된 상황의 원인이 경로 때문인지, 속도 때문인지에 대한 판단은 할 수 있게 된 것이다.
728x90