Belajar markov decision processes
October 19, 2025
Bangun Intuisi: Dunia yang Bisa Diprediksi dari Keadaan Sekarang
Bayangkan robot quadruped kamu seperti makhluk hidup di sebuah dunia. Dunia ini penuh aturan fisika, kalau dia menendang kaki terlalu keras, dia bisa jatuh; kalau terlalu lembut, dia nggak jalan.
Tapi menariknya:
Dunia robot ini selalu bereaksi dengan cara yang bisa diprediksi dari keadaan saat ini.
Artinya: Kalau kamu tahu kondisi sekarang (postur tubuh, kecepatan sendi, gaya kaki) dan aksi yang dilakukan, kamu bisa memperkirakan apa yang akan terjadi berikutnya, tanpa perlu tahu riwayat sebelumnya.
Itulah prinsip Markov.
Analogi:
Robot kamu seperti orang yang punya ingatan jangka pendek sempurna. Dia tidak ingat masa lalu, tapi cukup pintar untuk membaca seluruh “kondisi sekarang” dan tahu langkah selanjutnya.
Contoh di Dunia Nyata Quadruped
Misal, di Isaac Gym kamu punya simulasi quadruped. Setiap kali timestep (misalnya setiap 20 ms), simulator memberikan data:
| Elemen | Contohnya |
|---|---|
| State (s) | sudut 12 joint, kecepatan tiap motor, data IMU, posisi tubuh |
| Action (a) | sinyal torsi ke setiap motor |
| Reward (r) | +1 kalau robot tetap tegak, +0.1 kalau maju, −10 kalau jatuh |
| Next State (s’) | hasil pergerakan setelah aksi dilakukan |
Jadi setiap “momen waktu” bisa ditulis sebagai pasangan: [ (s, a, r, s') ] dan seluruh perjalanan robot adalah serangkaian pasangan itu.
Di situlah kamu punya Markov Decision Process, sistem yang selalu berkembang dari (s, a) ke (s’).
Apa Itu Markov Decision Process Secara Umum?
Setelah intuisi tadi kuat, baru kita formalkan:
- S → himpunan state (semua kondisi yang mungkin)
- A → himpunan aksi (semua perintah yang bisa dilakukan)
- P(s'|s,a) → probabilitas berpindah dari s ke s’ setelah aksi a
- R(s,a) → reward yang didapat setelah melakukan aksi a di state s
- γ (gamma) → faktor diskon (0–1), menentukan seberapa penting masa depan dibanding sekarang
Dalam dunia robotik, ini seperti blueprint otak: bagaimana ia “melihat dunia”, “mengambil tindakan”, dan “belajar dari hasilnya”.
Markov Property: “Cukup Lihat Sekarang”
Secara matematis:
Artinya, prediksi masa depan hanya tergantung pada keadaan sekarang dan aksi sekarang.
Kalau kamu punya sensor IMU + encoder joint yang lengkap, kamu sudah punya semua yang diperlukan untuk menentukan langkah berikutnya — tanpa perlu tahu apa yang terjadi 5 detik lalu.
Makanya, desain sistem pengendalian adaptif kamu nanti juga akan memastikan:
- Semua state sensors cukup kaya (observability),
- Tidak ada informasi penting yang hilang,
- Karena kalau tidak lengkap, sistemnya tidak benar-benar Markovian (dan RL-nya bisa gagal).
Reward dan Tujuan
Robot belajar lewat umpan balik.
| Reward | Arti bagi robot |
|---|---|
| +10 | berjalan stabil dan maju |
| +1 | menjaga keseimbangan |
| −5 | tergelincir atau jatuh |
| −0.1 | konsumsi energi berlebih |
Agent ingin memaksimalkan return jangka panjang:
Kalau γ = 0.9, robot masih peduli masa depan tapi tidak berlebihan. Kalau γ = 0.99, robot jadi visioner: dia rela lambat asal tidak jatuh dalam jangka panjang.
Policy: Otak yang Mengambil Keputusan
Policy (π) adalah fungsi yang memetakan state ke action.
Contoh di quadruped:
- Kalau sensor IMU menunjukkan miring ke kiri → tingkatkan torsi kaki kiri belakang.
- Kalau kecepatan = 0 → mulai pola langkah.
Di dunia modern RL, policy ini biasanya diwakili oleh jaringan saraf (neural network):
action = policy_network(state)
Bellman Equation (Intuisi Dulu)
Bayangkan kamu menilai “seberapa baik” suatu kondisi (misalnya postur robot sekarang).
Nilainya bergantung pada:
- seberapa bagus kondisi sekarang (reward langsung), dan
- seberapa bagus kondisi berikutnya nanti.
Jadi, atau dalam bentuk ekspektasi:
Ini seperti nilai sekarang = kepuasan sekarang + harapan masa depan.
Bellman equation inilah dasar dari seluruh algoritma RL yang akan kamu pelajari nanti (Monte Carlo, TD, Q-learning, DQN, PPO, dsb).
Kesimpulan Intuitif
Markov Decision Process adalah cara kita memformalkan pengalaman belajar robot:
- Robot melihat kondisi sekarang (state)
- Memilih aksi berdasarkan policy
- Menerima reward
- Dunia berubah (next state)
- Ulangi terus sampai policy-nya optimal
Seluruh proses ini yang nanti kamu implementasikan di:
- Simulasi (Isaac Gym) → tempat robot “belajar” policy optimal
- Dunia nyata (Real) → tempat policy diuji, lalu diadaptasi agar tetap stabil walau dinamika fisik berubah