VLA YeYa Proposal

Jaewan ShinJaewan Shin
Jihun Jang
September 21, 2025
VLA YeYa Proposal
VLA YeYa Proposal

VLA YeYa Proposal

Parent
Language
ko
Tags
YeYa
Diffusion
Vision Language Action Model
Agent
AI
Android
PC
번역 대기
번역 대기
Authors
Jaewan Shin
Jihun Jang
Published
September 21, 2025
Use Original Cover Image
Type
Post
Children
 

Multi-platform Agents with VLA

 
2024193011 신재완
2024193005 장지훈

1. 유저 시나리오

notion image
  1. overleaf에서 이렇게 생긴 표 만들어줘
    1. latex 입력창 segmentize
    2. get text
    3. edit latex code
 
notion image
notion image
  1. 상대방이 It was great time! See you next time!이라고 하고 얼어로 뭐라고 답장야할지 모르겠는 상황. 여기서 뭐라고 답장 하는 게 좋을까?
    1. 카톡 내역 가져옴
    2. input에 채움
    3. 이렇게 하는 게 좋습니다 설명
  1. 매일 오전 8시에 런어스 페이지에서 새로운 과제 나온 게 없는지 알려줘. 그리고 자료를 굿노트 자료에 추가하고 캘린더에 추가해줘
    1. 시간 확인
    2. 브라우저 스스로 동작
    3. url 스스로 입력
    4. 화면 찾아봄
  1. conda로 새 python env 만들어줘
    1. 터미널 창 segmentize
    2. text 입력
  1. 카톡으로 대화하는데 오후 5시에 친구와 약속 잡음
    1. 캘린더에 오후 5시 약속을 추가할까요?
    2. 버튼 나옴
  1. 유튜브 들어갔을 때 공부에 도움이 되는 영상과 노래 영상만 허락하고 나머지 영상은 들어가면 너가 막아줘
  1. figma에서 에셋으로 만드는 거 어떻게 해?
  1. notion의 현재 이 내용을 전부 가져와서 플렉슬 필기 앱에다가 손글씨로 필기해줘.
  1. 토스 앱에서 내 금융 상품을 수정해야하는 게 있을까? 지금 팔아도 돼?
  1. 바탕화면의 아이콘들 직접 드래그해서 깔끔하게 정리해줘
  1. 다빈치 리졸브에서 현재 클립에 프레임 보간을 써서 프레임 늘리려면 어떻게 해야해?
  1. notion에서 전체 내용 영어로 번역해서 그대로 넣어줘.
  1. Wuthering Wave 게임에서 일일퀘스트 활약도 100을 달성시켜줘
 

YeYa Ver2.

Video preview

How do we design a software project

  • What devices use software?
    • Every device which have screen and keyboard mouse or touch input
    • eg. Windows PC, macOS PC, android or iOS smartphone
  • Who uses software?
    • 반복되거나 귀찮은 컴퓨팅 태스크를 AI가 대신 해줬으면 하는 개인 유저
  • Where is software used?
    • Only in personal device.
    • eg. PC, smartphone, tablet etc.
  • How is software used?
    • Look 1. 유저 시나리오.
  • When is software used?
    • 유저가 특정 버튼이나 액션을 취하거나 말로 부르면 통화 연결 되듯 도움이 시작됨.
 
  • Why do the users use the system?
    • 반복되거나 귀찮은 작업을 AI가 대신해줄 수 있어 그동안 다른 일을 할 수 있어서.
    • 모르는 정보를 쉽고 간편하게 AI가 답을 해줘서.
 
  • What impact does your system have?
    • 개인적 효과와 문제
      • 보다 많은 일을 AI에게 맡길 수 있어 편리함을 느낌.
      • 내 디바이스에서 내가 의도하지 않은 결과를 실행시킬 수 있음.
    • 죽은 인터넷
      • 어떤 작업을 수행하는 주체가 사람인지 기계인지 판별하기가 어려워짐.
      • 게임 내에서 한정 재화를 기계가 수집하거나 사람을 위한 이벤트에서 자동화 로봇이 더욱 간편하게 활용됨
      • 여론조작이나 트래픽 조작과 같은 봇을 더 쉽게 만들 수 있음
    • 접근 권한 문제
      • 유저의 개인정보를 접근할 수 있게 하면 해커가 프롬프트를 갈취해서 마음대로 조작 가능
 

Model Structure

VLA YeYa

notion image
graph LR sv[Screen Video] si[Screen Image] uv[User Voice] vc[Voice Chunk] ap[Action Prompt] vy[VLA YeYa] oa[Output Action] ot[Output Text] dv[Device] sv --> si uv --> vc subgraph vy2 [VLA YeYa] si --> vy vc --> vy ap --> vy vy --> oa vy --> ot end oa --> |covert for each OS| dv ot --> UI
 

Action Structure

notion image
graph LR 1[Mouse Position <br> Mouse Left Click <br> ... <br> Mouse Wheel Up <br> + <br> Keyboard Q <br> Keyboard W <br> ... <br> Keyboard Left Shift ] 2[Mouse Position <br> Mouse Left Click <br> ... <br> Mouse Wheel Up <br> + <br> Keyboard Q <br> Keyboard W <br> ... <br> Keyboard Left Shift ] 3[Mouse Position <br> Mouse Left Click <br> ... <br> Mouse Wheel Up <br> + <br> Keyboard Q <br> Keyboard W <br> ... <br> Keyboard Left Shift ] 1 --> 2 --> ... --> 3

2. 어떤 변화

2.1. 기능의 효과

  • 채팅 창을 왔다갔다 하지 않아도 되는 편리함
  • 기기를 직접 조작하지 않아도 되는 편리함
  • 프로그램 사용법을 일일이 찾아보고 읽지 않고도 알 수 있는 편리함
  • 기존 LLM의 excuting boundary 확장
  • Digital literacy 향상
  • SW에서의 AGI 첫 걸음
 

2.2. Google Assistant, Siri와의 차별점

  • 모든 환경(웹, 앱, 게임, 프로그램), 모든 플랫폼(모바일, pc, 태블릿)에서 동작
  • 사전 학습하거나 지정되지 않은 task 수행 가능
 

3. 구현 기술

3.1. VLA

Vision Language Action Model
  • 왜 LLM이 아닌가
    • GUI는 Graphic이고 인간이 상호작용하기 편리하게 구성돼 있어 Visual 접근이 필요함.
  • 왜 Action인가
    • 로봇에 주로 사용됨. 주변 환경을 파악하고 특정 행동을 수행하기 위한 모터의 각도와 속도를 변환하는데 쓰임.
    • 주변 환경을 파악하는 것이 유사하며 최종적으로 마우스 또는 터치의 위치와 속도를 내보내야 함.
    • 다른 점
      • 3D 환경 → 2D 환경
      • input world가 continuous 하지 않고 discrete함.
        • 예를 들어 현실에서는 사과를 집어서 쓰레기통에 버릴 때 일련의 과정이 연속적으로 나열됨.
        • 그러나 gui에서는 창을 선택하는 것도 좌표를 통해 즉시 수행 가능하고 창을 끄는 것도 곧바로 끌 수 있음
 

3.2. Diffusion-VLA

notion image
  • Diffusion-VLA이란?
    • 기존의 autoregressive vla models lack precise and robust action generation. 모터 조절 출력 토큰을 순차적으로 하나씩 만듦 → 연속적인 값을 불연속적인 토큰으로 출력함. → 결과가 이상해짐.
    • However, diffusion based policies lack reasoning capabilites. ← diffusion으로 한 번에 만들어서 중간 reasoning이 생략됨.
    • 따라서 action sequence 전체를 한 번에 diffusion으로 생성함. 이를 통해 같은 사과를 옮기는 동작을 만들 때 여러 경로를 반영할 수도 있고 모터 제어 결과가 연속적인 distribution에서 나와 robust함.
  • 왜 써야 하는가?
    • 마우스나 터치하는 output은 연속적인 값임. 토큰으로 쪼개서 하나씩 만드는 것보다 경로 전체를 한 번에 만드는 것이 효율적임. 또한 같은 task이더라도 그 방법이 여러가지일 수 있음.
 

3.3. CoT-VLA

notion image
  • CoT-VLA란?
    • 기존의 vla는 reasoning이 약함. image와 text를 넣으면 곧바로 action이 나오는데 그게 아니라 Chain of Thought가 되어야 보다 robust함.
    • 이를 위해 현재 상태에서 다음 프레임의 이미지를 예측하여 생성하고 이를 바탕으로 action을 실행하도록 함.
    • 또한 라벨링 안 된 로봇 데이터는 많지만 라벨링 된 데이터는 매우 적음
    • 라벨링 안 된 비디오 데이터로부터 프레임 생성을 시키면 라벨링 안 된 데이터도 활용 가능해짐
  • 왜 써야 하는가?
    • 언어적인 reasoning만으는 gui에 대한 정보 손실이 큼. gui 학습 결과에 의한 시각적 reasoning을 통해 보다 복잡한 task를 안정적으로 할 수 있을 것.
    • 라벨링 안 된 데이터를 시각 reasoning으로 사용할 수 있음
    •  
       

3.3. ShowUI

notion image
  • UI connected graph
  • VLA

4. 팀원별 역할

같이 공부하면서 같이 개발하기

5. 예상되는 어려움

  • 어떤 데이터를 사용할지 선택하기
  • 일반적인 sota vision language model을 쓰는 것이 맞을지? - ui에 대한 학습이 적게 되어 있을텐데.
  • 모델 최적화, on device로 제작 가능 여부
  • 어디서부터 시작할지 모르겠는 막막함.
 
  • 언어적 지시와 포인터 지시의 동시간적
  • 한 번으로 끝나는게 아니라 실수하면 바로 고쳐질 수 있게

6. Development Plan

Up to November

Model establish

Up to December

Connect to the UI
 
 

Feedback

  • GPU가 많이 필요하다. 48GB ~ 80GB
    • 최적화가 중요할 듯
    • input size 조절
  • vlm open source 모델 조사 필요
  • action의 space 지정이 중요
    • 어느 정도까지 할 수 있는지 명확히 정하기
  • siri보다 더 어려운 task
    • 특정 domain에서 활용할 수 있는 것이 무엇일까
    • 특정 aplication에 특화되는 것을 만들기
  • 의미가 있으려면 데이터가 10만개는 있어야 할 듯
  • model은 planning만 하게 하고
  • touch model은 따로 만들기
 
pre trained model을 사용하는 게 현실성 있다
autodroid 논문 찾아보기
 
내일 모레까지 proposal 보고서 다시 작성
다음주까지 cost 관련 내용 보내기
 
발표 자료 만들기
현실 가능성 있게 해라
매주 미팅을 해야함
연락해서 미팅 잡기
조교와 같이
 
 
 
training 없이
api로만
ui 존재
macos에서. 크로스플랫폼도 고려
 
 
 
 
Model Variant
Accuracy
Macro-F1
Params (M)
Training/validation Speed (it/s)
LoRA
86.3
66.9
5.5
1.63 / 3.49
Prefix-Tuning
85.4
65.1
0.79
1.70 / 3.55
User Embedding
49.1
18.4
0.34
--
Query-Dependent Hypernet
39.7
0.215
159M
--
HyperPrompt
82.8
66.3
160M
1.11 / 2.45