Belajar markov decision processes

Bangun Intuisi: Dunia yang Bisa Diprediksi dari Keadaan Sekarang

Bayangkan robot quadruped kamu seperti makhluk hidup di sebuah dunia. Dunia ini penuh aturan fisika, kalau dia menendang kaki terlalu keras, dia bisa jatuh; kalau terlalu lembut, dia nggak jalan.

Tapi menariknya:

Dunia robot ini selalu bereaksi dengan cara yang bisa diprediksi dari keadaan saat ini.

Artinya: Kalau kamu tahu kondisi sekarang (postur tubuh, kecepatan sendi, gaya kaki) dan aksi yang dilakukan, kamu bisa memperkirakan apa yang akan terjadi berikutnya, tanpa perlu tahu riwayat sebelumnya.

Itulah prinsip Markov.

Analogi:

Robot kamu seperti orang yang punya ingatan jangka pendek sempurna. Dia tidak ingat masa lalu, tapi cukup pintar untuk membaca seluruh “kondisi sekarang” dan tahu langkah selanjutnya.

Contoh di Dunia Nyata Quadruped

Misal, di Isaac Gym kamu punya simulasi quadruped. Setiap kali timestep (misalnya setiap 20 ms), simulator memberikan data:

Elemen	Contohnya
State (s)	sudut 12 joint, kecepatan tiap motor, data IMU, posisi tubuh
Action (a)	sinyal torsi ke setiap motor
Reward (r)	+1 kalau robot tetap tegak, +0.1 kalau maju, −10 kalau jatuh
Next State (s’)	hasil pergerakan setelah aksi dilakukan

Jadi setiap “momen waktu” bisa ditulis sebagai pasangan: [ (s, a, r, s') ] dan seluruh perjalanan robot adalah serangkaian pasangan itu.

Di situlah kamu punya Markov Decision Process, sistem yang selalu berkembang dari (s, a) ke (s’).

Apa Itu Markov Decision Process Secara Umum?

Setelah intuisi tadi kuat, baru kita formalkan: $\mathcal{M} = (S, A, P, R, \gamma)$

S → himpunan state (semua kondisi yang mungkin)
A → himpunan aksi (semua perintah yang bisa dilakukan)
P(s'|s,a) → probabilitas berpindah dari s ke s’ setelah aksi a
R(s,a) → reward yang didapat setelah melakukan aksi a di state s
γ (gamma) → faktor diskon (0–1), menentukan seberapa penting masa depan dibanding sekarang

Dalam dunia robotik, ini seperti blueprint otak: bagaimana ia “melihat dunia”, “mengambil tindakan”, dan “belajar dari hasilnya”.

Markov Property: “Cukup Lihat Sekarang”

Secara matematis: $P(s_{t+1}\mid s_t, a_t, s_{t-1}, a_{t-1}, \dots) = P(s_{t+1}\mid s_t, a_t)$

Artinya, prediksi masa depan hanya tergantung pada keadaan sekarang dan aksi sekarang.

Kalau kamu punya sensor IMU + encoder joint yang lengkap, kamu sudah punya semua yang diperlukan untuk menentukan langkah berikutnya — tanpa perlu tahu apa yang terjadi 5 detik lalu.

Makanya, desain sistem pengendalian adaptif kamu nanti juga akan memastikan:

Semua state sensors cukup kaya (observability),
Tidak ada informasi penting yang hilang,
Karena kalau tidak lengkap, sistemnya tidak benar-benar Markovian (dan RL-nya bisa gagal).

Reward dan Tujuan

Robot belajar lewat umpan balik.

Reward	Arti bagi robot
+10	berjalan stabil dan maju
+1	menjaga keseimbangan
−5	tergelincir atau jatuh
−0.1	konsumsi energi berlebih

Agent ingin memaksimalkan return jangka panjang:

$G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \dots$

Kalau γ = 0.9, robot masih peduli masa depan tapi tidak berlebihan. Kalau γ = 0.99, robot jadi visioner: dia rela lambat asal tidak jatuh dalam jangka panjang.

Policy: Otak yang Mengambil Keputusan

Policy (π) adalah fungsi yang memetakan state ke action.

$\pi(a|s) = P(A_t = a | S_t = s)$

Contoh di quadruped:

Kalau sensor IMU menunjukkan miring ke kiri → tingkatkan torsi kaki kiri belakang.
Kalau kecepatan = 0 → mulai pola langkah.

Di dunia modern RL, policy ini biasanya diwakili oleh jaringan saraf (neural network):

action = policy_network(state)

Bellman Equation (Intuisi Dulu)

Bayangkan kamu menilai “seberapa baik” suatu kondisi (misalnya postur robot sekarang).

Nilainya bergantung pada:

seberapa bagus kondisi sekarang (reward langsung), dan
seberapa bagus kondisi berikutnya nanti.

Jadi, $V(s) = R(s) + \gamma V(s')$ atau dalam bentuk ekspektasi: $V(s) = \mathbb{E}[R(s,a) + \gamma V(s')]$

Ini seperti nilai sekarang = kepuasan sekarang + harapan masa depan.

Bellman equation inilah dasar dari seluruh algoritma RL yang akan kamu pelajari nanti (Monte Carlo, TD, Q-learning, DQN, PPO, dsb).

Kesimpulan Intuitif

Markov Decision Process adalah cara kita memformalkan pengalaman belajar robot:

Robot melihat kondisi sekarang (state)
Memilih aksi berdasarkan policy
Menerima reward
Dunia berubah (next state)
Ulangi terus sampai policy-nya optimal

Seluruh proses ini yang nanti kamu implementasikan di:

Simulasi (Isaac Gym) → tempat robot “belajar” policy optimal
Dunia nyata (Real) → tempat policy diuji, lalu diadaptasi agar tetap stabil walau dinamika fisik berubah