VLA YeYa Proposal

↘️

Original URL Link:

https://jzahnny.vercel.app/ko/post/vla-yeya-proposal

Multi-platform Agents with VLA

2024193011 신재완

2024193005 장지훈

1. 유저 시나리오

overleaf에서 이렇게 생긴 표 만들어줘

latex 입력창 segmentize
get text
edit latex code

상대방이 It was great time! See you next time!이라고 하고 얼어로 뭐라고 답장야할지 모르겠는 상황. 여기서 뭐라고 답장 하는 게 좋을까?

카톡 내역 가져옴
input에 채움
이렇게 하는 게 좋습니다 설명

매일 오전 8시에 런어스 페이지에서 새로운 과제 나온 게 없는지 알려줘. 그리고 자료를 굿노트 자료에 추가하고 캘린더에 추가해줘

시간 확인
브라우저 스스로 동작
url 스스로 입력
화면 찾아봄

conda로 새 python env 만들어줘

터미널 창 segmentize
text 입력

카톡으로 대화하는데 오후 5시에 친구와 약속 잡음

캘린더에 오후 5시 약속을 추가할까요?
버튼 나옴

유튜브 들어갔을 때 공부에 도움이 되는 영상과 노래 영상만 허락하고 나머지 영상은 들어가면 너가 막아줘

figma에서 에셋으로 만드는 거 어떻게 해?

notion의 현재 이 내용을 전부 가져와서 플렉슬 필기 앱에다가 손글씨로 필기해줘.

토스 앱에서 내 금융 상품을 수정해야하는 게 있을까? 지금 팔아도 돼?

바탕화면의 아이콘들 직접 드래그해서 깔끔하게 정리해줘

다빈치 리졸브에서 현재 클립에 프레임 보간을 써서 프레임 늘리려면 어떻게 해야해?

notion에서 전체 내용 영어로 번역해서 그대로 넣어줘.

Wuthering Wave 게임에서 일일퀘스트 활약도 100을 달성시켜줘

YeYa Ver2.

How do we design a software project

What devices use software?

Every device which have screen and keyboard mouse or touch input
eg. Windows PC, macOS PC, android or iOS smartphone

Who uses software?

반복되거나 귀찮은 컴퓨팅 태스크를 AI가 대신 해줬으면 하는 개인 유저

Where is software used?

Only in personal device.
eg. PC, smartphone, tablet etc.

How is software used?

Look 1. 유저 시나리오.

When is software used?

유저가 특정 버튼이나 액션을 취하거나 말로 부르면 통화 연결 되듯 도움이 시작됨.

Why do the users use the system?

반복되거나 귀찮은 작업을 AI가 대신해줄 수 있어 그동안 다른 일을 할 수 있어서.
모르는 정보를 쉽고 간편하게 AI가 답을 해줘서.

What impact does your system have?

개인적 효과와 문제

보다 많은 일을 AI에게 맡길 수 있어 편리함을 느낌.
내 디바이스에서 내가 의도하지 않은 결과를 실행시킬 수 있음.

죽은 인터넷

어떤 작업을 수행하는 주체가 사람인지 기계인지 판별하기가 어려워짐.
게임 내에서 한정 재화를 기계가 수집하거나 사람을 위한 이벤트에서 자동화 로봇이 더욱 간편하게 활용됨
여론조작이나 트래픽 조작과 같은 봇을 더 쉽게 만들 수 있음

접근 권한 문제

유저의 개인정보를 접근할 수 있게 하면 해커가 프롬프트를 갈취해서 마음대로 조작 가능

Model Structure

VLA YeYa


graph LR
	sv[Screen Video]
	si[Screen Image]
	uv[User Voice]
	vc[Voice Chunk]
	ap[Action Prompt]
	vy[VLA YeYa]
	oa[Output Action]
	ot[Output Text]
	dv[Device]
	
	sv --> si
	uv --> vc
	
	subgraph vy2 [VLA YeYa]
	si --> vy
	vc --> vy
	ap --> vy
	vy --> oa
	vy --> ot
	end
	
	oa --> |covert for each OS| dv
	ot --> UI

Action Structure


	graph LR
		1[Mouse Position <br> Mouse Left Click <br> ...  <br> Mouse Wheel Up <br> + <br> Keyboard Q <br> Keyboard W <br> ... <br> Keyboard Left Shift ]
		2[Mouse Position <br> Mouse Left Click <br> ...  <br> Mouse Wheel Up <br> + <br> Keyboard Q <br> Keyboard W <br> ... <br> Keyboard Left Shift ]
		3[Mouse Position <br> Mouse Left Click <br> ...  <br> Mouse Wheel Up <br> + <br> Keyboard Q <br> Keyboard W <br> ... <br> Keyboard Left Shift ]
		1 --> 2 --> ... --> 3

2. 어떤 변화

2.1. 기능의 효과

채팅 창을 왔다갔다 하지 않아도 되는 편리함

기기를 직접 조작하지 않아도 되는 편리함

프로그램 사용법을 일일이 찾아보고 읽지 않고도 알 수 있는 편리함

기존 LLM의 excuting boundary 확장

Digital literacy 향상

SW에서의 AGI 첫 걸음

2.2. Google Assistant, Siri와의 차별점

모든 환경(웹, 앱, 게임, 프로그램), 모든 플랫폼(모바일, pc, 태블릿)에서 동작

사전 학습하거나 지정되지 않은 task 수행 가능

3. 구현 기술

3.1. VLA

Vision Language Action Model

왜 LLM이 아닌가

GUI는 Graphic이고 인간이 상호작용하기 편리하게 구성돼 있어 Visual 접근이 필요함.

왜 Action인가

로봇에 주로 사용됨. 주변 환경을 파악하고 특정 행동을 수행하기 위한 모터의 각도와 속도를 변환하는데 쓰임.
주변 환경을 파악하는 것이 유사하며 최종적으로 마우스 또는 터치의 위치와 속도를 내보내야 함.
다른 점

3D 환경 → 2D 환경
input world가 continuous 하지 않고 discrete함.

예를 들어 현실에서는 사과를 집어서 쓰레기통에 버릴 때 일련의 과정이 연속적으로 나열됨.
그러나 gui에서는 창을 선택하는 것도 좌표를 통해 즉시 수행 가능하고 창을 끄는 것도 곧바로 끌 수 있음

3.2. Diffusion-VLA

Diffusion-VLA이란?

기존의 autoregressive vla models lack precise and robust action generation. 모터 조절 출력 토큰을 순차적으로 하나씩 만듦 → 연속적인 값을 불연속적인 토큰으로 출력함. → 결과가 이상해짐.
However, diffusion based policies lack reasoning capabilites. ← diffusion으로 한 번에 만들어서 중간 reasoning이 생략됨.
따라서 action sequence 전체를 한 번에 diffusion으로 생성함. 이를 통해 같은 사과를 옮기는 동작을 만들 때 여러 경로를 반영할 수도 있고 모터 제어 결과가 연속적인 distribution에서 나와 robust함.

왜 써야 하는가?

마우스나 터치하는 output은 연속적인 값임. 토큰으로 쪼개서 하나씩 만드는 것보다 경로 전체를 한 번에 만드는 것이 효율적임. 또한 같은 task이더라도 그 방법이 여러가지일 수 있음.

3.3. CoT-VLA

CoT-VLA란?

기존의 vla는 reasoning이 약함. image와 text를 넣으면 곧바로 action이 나오는데 그게 아니라 Chain of Thought가 되어야 보다 robust함.
이를 위해 현재 상태에서 다음 프레임의 이미지를 예측하여 생성하고 이를 바탕으로 action을 실행하도록 함.
또한 라벨링 안 된 로봇 데이터는 많지만 라벨링 된 데이터는 매우 적음
라벨링 안 된 비디오 데이터로부터 프레임 생성을 시키면 라벨링 안 된 데이터도 활용 가능해짐

왜 써야 하는가?

언어적인 reasoning만으는 gui에 대한 정보 손실이 큼. gui 학습 결과에 의한 시각적 reasoning을 통해 보다 복잡한 task를 안정적으로 할 수 있을 것.
라벨링 안 된 데이터를 시각 reasoning으로 사용할 수 있음

3.3. ShowUI

UI connected graph

4. 팀원별 역할

같이 공부하면서 같이 개발하기

5. 예상되는 어려움

어떤 데이터를 사용할지 선택하기

일반적인 sota vision language model을 쓰는 것이 맞을지? - ui에 대한 학습이 적게 되어 있을텐데.

모델 최적화, on device로 제작 가능 여부

어디서부터 시작할지 모르겠는 막막함.

언어적 지시와 포인터 지시의 동시간적

한 번으로 끝나는게 아니라 실수하면 바로 고쳐질 수 있게

6. Development Plan

Up to November

Model establish

Up to December

Connect to the UI

Feedback

GPU가 많이 필요하다. 48GB ~ 80GB

최적화가 중요할 듯
input size 조절

vlm open source 모델 조사 필요

action의 space 지정이 중요

어느 정도까지 할 수 있는지 명확히 정하기

siri보다 더 어려운 task

특정 domain에서 활용할 수 있는 것이 무엇일까
특정 aplication에 특화되는 것을 만들기

의미가 있으려면 데이터가 10만개는 있어야 할 듯

model은 planning만 하게 하고

touch model은 따로 만들기

pre trained model을 사용하는 게 현실성 있다

autodroid 논문 찾아보기

내일 모레까지 proposal 보고서 다시 작성

다음주까지 cost 관련 내용 보내기

발표 자료 만들기

현실 가능성 있게 해라

매주 미팅을 해야함

연락해서 미팅 잡기

조교와 같이

training 없이

api로만

ui 존재

macos에서. 크로스플랫폼도 고려

Model Variant	Accuracy	Macro-F1	Params (M)	Training/validation Speed (it/s)
LoRA	86.3	66.9	5.5	1.63 / 3.49
Prefix-Tuning	85.4	65.1	0.79	1.70 / 3.55
User Embedding	49.1	18.4	0.34	--
Query-Dependent Hypernet	39.7	0.215	159M	--
HyperPrompt	82.8	66.3	160M	1.11 / 2.45