[논문 리뷰] ShowUI: VLA를 통해 멀티플랫폼 Visual 에이전트 구현

Parent

논문 리뷰

Language

1. 한 줄 요약

문제: 비싼 비전, 기기마다 다른 action, 무엇이 좋은 훈련 데이터인가

해결: 비슷한 영역을 하나의 patch로 합치기, 비전과 쿼리 액션을 분리하기, 적은 데이터를 LLM으로 증강하기

결과: Ground, Navigation, Mind2Web에서 SOTA

2. 문제점

GUI assistant가 인간의 workflow를 도와 생산성을 증대시키고 있다. 그러나 대부분이 언어 기반이라서 API로 동작하고 HTML과 같은 메타 데이터로 동작한다. 그러나 인간은 시각적으로 행동하기 때문에 이 방식은 한계가 있다.

그래서 GUI visual agents를 개발해 왔으나 여기서도 3가지 문제가 있다.

2.1. 비싼 Visual Modeling

UI 스크린샷은 2K처럼 고해상도인데 이를 처리하기엔 토큰이 너무 길어 비싸다.

2.2. Device마다 다른 Action

Scroll은 PC에서는 2방향이지만 모바일에서는 4방향이거나 PC에는 모바일의 홈 버튼이 없는 등 Action이 다른데 한 모델에서 모두 할 수 있게 하기 어렵다.

2.3. 다양한 훈련 데이터

웹, 모바일, PC 등 데이터는 많지만 그중 어떤 것이 고퀄리티인지 알기 어렵다.

3. 해결 방법

3.1. UI-Guided Visual Tokens Selection

Visual token을 선택하는 방법으로 UI connected graph를 사용한다. 원리는 간단한데 처음에는 격자를 많이 그려두고 주변 픽셀들을 비교해서 patch의 유사도를 비교하고 merge한다. 이를 통해 불필요한 부분을 줄일 수 있다.

3.2. Interleaved VLA Streaming

JSON 포맷을 사용하여 모델이 아래와 같이 말하게 한다. 또한 모델에게 README를 제공하여 일관적으로 답변하게 한다.


{‘action’: ‘action type’, ‘value’: ‘element’, ‘position’: [x,y]}

또한 Action with Visual과 Action with Textual query로 나누어서 비싼 screenshot token을 효율적으로 사용하게 한다.

3.3. GUI Instructional Tuning

GPT-4o를 사용하여 Appearance, Spatial-relationship, Intention을 생성하도록 하여 적은 데이터로 작은 모델을 만들어 퀄리티를 높였다.

4. 실험 결과

UI의 위치를 찾는 Ground에서 평균 75.1%으로 성공했다.

좀 더 복잡한 화면 이동 task인 navigation에서는 종합 70점을 기록했다.

Mind2Web에서도 SOTA를 보여주었다.

5. 느낀 점

UI connected graph가 단순한 알고리즘으로만 구성 돼 있어서 좀 더 개선할 방법이 있지 않을까 생각했다. 왜냐면 이 방식은 지도 위의 ui처럼 지도 전체가 큰 ui 영역 하나인데 이 부분도 모든 토큰이 들어가 비효율적이라고 느꼈고 텍스트가 꽉 차 있기만 해도 거의 모든 vision 토큰을 써서 다른 비전 처리 방법을 함께 적용할 수 있지 않을까 생각했다.

또한 JSON으로 일일히 클릭, 드래그라 하는 게 아니라 연속적인 값을 Diffusion VLA로도 만들 수 있지 않을까라는 생각이 들었다.

Reference

Lin, K. Q., et al. (2024). ShowUI: One Vision-Language-Action Model for GUI Visual Agent. arXiv. Available at: https://arxiv.org/abs/2411.17465