- ์ฃผ์ ๋ช : ์ฃผ์ ๋งค๋งค๋ฅผ ์ํ Policy-based Reinforce Agent ๊ฐ๋ฐ
- ๋ฐฐ๊ฒฝ
- ๋ฅ๋ฌ๋์ ์ด์ฉํ์ฌ ์ฃผ์ ๊ฐ๊ฒฉ์ ์์ธกํ๋ ํ๋ก์ ํธ๋ ์ผ๋ฐ์ ์ผ๋ก ์๋๋์์ผ๋, ๋จ์ ์์ธก์ ๊ธฐ๋ฐํ๊ธฐ ๋๋ฌธ์ ํฌ์ ์์ฌ๊ฒฐ์ ๋ฐ ์์ต๋ฅ ์ ๊ทน๋ํํ๋ ์ฃผ์ ๋งค๋งค์ ๋ชฉ์ ์ ์ด๋ฃจ๊ธฐ์ ํ๊ณ๊ฐ ์์
- ๋ถํ์คํ ํ๊ฒฝ์์ ๋งค๋งค๋ฅผ ํด์ผํ๋ ํ์ค์ ๋ฌธ์ ์ ๋ง๋๋ก ์์ด์ ํธ๊ฐ ์ ์ญ๋ง๊ฐ์ ์๋๋ฆฌ์ค๋ฅผ ํตํด ์์ต๋ฅ ์ ๊ทน๋ํํ ์ ์๋ ์ก์ ์ ํ์ตํ๊ฒํ์ฌ ์์ต๋ฅ ์ ๊ทน๋ํํ๊ณ ์ ํจ
- ๊ฐ์ : ๊ฐํํ์ต ์์ด์ ํธ๊ฐ ์์ต๋ฅ ์ ๊ทน๋ํํ๋ ๊ฑฐ๋๋ฅผ ํ ์ ์๋๋ก ํ์ตํ๊ณ KOSPI 200 ์ข ๋ชฉ์์ ์ค์ ๋งค๋งค๋ฅผ ์งํ
- ์ฃผ์ต : ๋ฐ์ดํฐ๋ถ์ํํ D&A Conference Session
- ์ฐธ๊ฐ ์๊ฒฉ ๋ฐ ํ ์ธ์ ์ ํ ์ฌํญ : 3์ธ ํ
- ์ฑ๊ณผ : ์ปจํผ๋ฐ์ค ๋ฐํ
- ํ๋ก์ ํธ ๊ธฐ๊ฐ : 2023๋ 7์~2023๋ 11์
- ์ปจํผ๋ฐ์ค ๋ฐํ : 2023๋ 12์ 1์ผ
- ์ฃผ๊ฐ ๋ฐ์ดํฐ ๋ฐ ์ฌ๋ฌด์ ํ ๋ฐ์ดํฐ ์์ง
- ์ฃผ๊ฐ ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ
- ํ๋ฆฌํฐ ํฉํฐ ํฌ์ ๊ตฌํ
- ๊ฐํ ํ์ต ์ด๋ก ์ ๋ฆฌ ๋ฐ ์คํ ์ํ
-
์ ์ฑ ๊ฒฝ์ฌ๋ฅผ ํ์ฉํ์ฌ Policy Network์ ์ก์ (Buy, Sell, Hold) ํ์ต
-
Critic Network ๋์ ์ผ๋ก Policy Network๊ฐ ์์ธกํ action์ ๊ฐ์น ์ธก์
-
Advantage Term (Q(st,at)- V(st))๋ฅผ ์ด์ฉํ์ฌ Policy, Critic Network ํ์ต
-
A2C๋ Onpolicy์ด๋ฏ๋ก N๊ฐ์ ๋ํ Batch ํ์ต์ ์งํํ๊ณ ์ํ์ ์ฌ์ฌ์ฉํ์ง ์๋๋ค
-
๋ณด์ํจ์ ์ค๊ณ
- one buy - one sell์ด ์ผ์ด๋ ์ ๋งค๋ ์ฐจ์ต์ ๋ํ ์์ต๋ฅ ๋ก ๋ณด์ ์ค์
- Monte carlo, Target Difference ๋ฐฉ์ ์ค ์ฃผ์ ๊ฑฐ๋ ๋๋ฉ์ธ์ ๋ ํจ๊ณผ์ ์ธ ๋ฐฉ์ ์ฑํ
- KOSPI 200์ ํด๋นํ๋ ์ข
๋ชฉ์ ์ง๋ 10๋
(2013.01.01~2022.12.31) ์ผ๋ณ ๋ฐ์ดํฐ๋ฅผ ์์ง(2023.08.26 ๊ธฐ์ค)
- ์์ง ๋ฐ์ดํฐ : ์๊ฐ, ๊ณ ๊ฐ, ์ ๊ฐ, ์ข ๊ฐ, ๊ฑฐ๋๋, ํฌ์์๋ณ ๊ฑฐ๋๋๊ธ(๊ธฐ๊ด, ๊ฐ์ธ, ์ธ๊ตญ์ธ)
- ๊ฑฐ๋๋ ๋ฐ ๊ฐ๊ฒฉ ์งํ๋ฅผ ์์ฑ ๋ฐ ์ ์ฒ๋ฆฌ(ํด๋ ์ง, ๋ณ์๋ณํ ๋ฑ)
- ํ์ต๊ธฐ๊ฐ ๋์ ์ฌ์ฉํ ์ค์ผ์ผ๋ฌ๋ฅผ ํ ์คํธ ๋ ์ฌ์ฉํ๊ธฐ ์ํด์ ์ข ๋ชฉ๋ณ ์ค์ผ์ผ๋ฌ ์ ์ฅ
- Environment์ state๋ฅผ ๊ตฌ์ฑํ๊ธฐ ์ํ ์์
์ค์
- ๊ฐ๋ณ ์ข ๋ชฉ ์ฝ๋๋ฅผ ๋ถ๋ฅด๋ฉด ์ ์ฒด ์ฃผ๊ฐ ๋ฐ์ดํฐ๋ฅผ ๋ถ๋ฌ์ค๋ ๊ธฐ๋ฅ
- ํ๊ฒฝ์๋ ๋ ๊ฐ์ง ๋ฐ์ดํฐ ์
์ด ์กด์ฌ
- ์ฐจํธ ๋ฐ์ดํฐ : ์์ด์ ํธ๊ฐ ์ค๊ฑฐ๋๊ฐ๋ก ๋งค๋งคํ๊ธฐ ์ํด ์ฌ์ฉ (์๊ฐ, ์ ๊ฐ, ๊ณ ๊ฐ, ์ข ๊ฐ)
- ํ์ต ๋ฐ์ดํฐ : policy network์ ๋ค์ด๊ฐ๊ธฐ ์ํ ๋ฐ์ดํฐ (๊ฐ์ข ์งํ๋ค)
- ์ง์ ํ ์๋์ฐ ์ฌ์ด์ฆ๋งํผ ๊ฐ๋ณ state๋ฅผ ํธ์ถํ๊ณ next state๋ฅผ ๋ถ๋ฌ์ฃผ๋ ๊ธฐ๋ฅ
- ๊ฑฐ๋ ๊ด๋ จ ํ๋ผ๋ฏธํฐ
- ์ด์ฉ์๊ธ, ํฌํธํด๋ฆฌ์ค ๊ฐ์น, ํ๋จ๊ฐ, ๊ฑฐ๋ ์์๋ฃ ๋ฑ
- ๊ฑฐ๋ ๊ด๋ จ ํจ์ ์ ์ธ
- Buy, Sell, Hold ๋ฑ
- Policy Network (Gradient Ascent)
- loss = -logprob * advantage
- Critic Network (Gradient Descent)
- loss = (advantage)^2
- Advantage = V(st+1) - V(st) :
- Q(st,at)๋ฅผ bellman equation์ผ๋ก ๋ณํ ํ state๋ง์ ๊ฐ์ง๊ณ advantage term์ ๋ํ๋ผ ์ ์์ด ์ฐ์ฐ ํจ์จํ ๊ฐ๋ฅ
- ์ ํต์ ์ธ ๊ธ์ต๊ณตํ ๋ถ์ผ์์ ์ฐ์ด๋ ์๊ณ ๋ฆฌ์ฆ๊ณผ ๋ฌ๋ฆฌ, ์ค์ค๋ก์ ๊ฒฝํ์ผ๋ก ํ์ตํ๋ ์ธ๊ณต์ง๋ฅ์ ๊ฐ๋ฐํ๋๋ฐ ์๋ฏธ๊ฐ ์์์ต๋๋ค.
- ๊ฐํํ์ต ๊ธฐ๋ฐ์ ์๊ณ ๋ฆฌ์ฆ์ ๋ํ ์ฐ๊ตฌ๊ฐ ํ์ฑํ ๋์ด์์ง ์์๊ธฐ ๋๋ฌธ์ ์๋กญ๊ณ ๋์ ์ ์ธ ์ฐ๊ตฌ๋ผ๊ณ ์๊ฐํฉ๋๋ค.
- ํ๋ ์์ํฌ๋ฅผ ์ฌ์ฉํ์ง ์๊ณ ์ง์ End to End ๋ชจ๋ธ์ ๊ฐ๋ฐํ๋ฉฐ ๊ฐ์ง ๊ฒฝํ์ ์ป์๋ค๋๋ฐ ํฐ ์๋ฏธ๋ฅผ ๊ฐ์ง๋๋ค.
- ํต์ ํ ํ์ดํผํ๋ผ๋ฏธํฐ ์ฆ๊ฐ๋ก ์ธํด ์ต์ ์ ๋ชจ๋ธ์ ํ์ํ๋๋ฐ ์ด๋ ค์์ ๊ฒช์์ต๋๋ค.
- ํ๋ฝ์ฅ์์๋ ๊ฑฐ์ ์ํจํ๋ฉด์ ์์ต๋ฅ ์ ๋ณด์ง ๋ชปํ๋ ๊ฒฝ์ฐ๊ฐ ๋ค์์๊ณ ๋ณ๋์ฑ์ด ํด ๋ ์ ๋๋ก ๋ ์ก์ ์ ํ์ง ๋ชปํ๋ ํ์์ด ๋ฐ์ํ์ต๋๋ค.
- ๋ณด์ํจ์์ ๋ณด์์ ํตํด ๋ชจ๋ธ์ด ์ ๊ตํ ํ์ต์ ํ๋๋ก ์ ๋๊ฐ ํ์ํ๋ค๊ณ ์๊ฐํฉ๋๋ค.
- ๋ชจ๋ธ์ ์ก์ ์๋ง ์์กดํ๋ ๊ฒ์ด ์๋ ๊ธ์ต๊ณตํ์ ์ธ ๊ท์น์ ์ฃผ์ ํ์ฌ ์ก์ ์ ์กฐ์ ํ๋ ๋ฐฉ์์ด ํ์ํ ๊ฒ์ผ๋ก ๋ณด์ ๋๋ค. (Ex. ์์ ํํ์ ์ค์ , Nํ ์ด์ ๋งค์ ๊ธ์ง ๋ฑ)
