2025/09/21 2

[강화학습] A2C

지난 글에선 REINFORCE 알고리즘을 공부했다.이 알고리즘은 간단한 CartPole 예제에는 잘 작동했지만, 좀 더 복잡한 환경의 강화학습에는 그리 잘 통과하지 않는다. 한편, DQN의 경우 이산적인 동작 공간에서 상당히 효과적이지만, 입실론-그리디 정책같은 개별적인 정책 함수가 필요하다는 단점이 있다. 이번 글에서는 REINFORCE의 장점과 DQN의 장점을 합친 actor-critic(행위자-비평자)라는 알고리즘을 소개한다.이 모델은 여러 문제 영역에서 최고 수준의 성과를 낸 바 있다.REINFORCE 알고리즘은 일반적으로 일회적 알고리즘(에피소딕, episodic algorithm)으로 구현된다.이는 에이전트가 하나의 에피소드 전체를 끝낸 후에야 그 에피소드에서 수집한 보상들로 모델의 매개변수들..

2025. Maximum Number of Ways to Partition an Array - Streak 8

위 문제에서 정의된 동작을 함수 y=f(x)의 형태로 정의해보자.g(y): 특정 위치 y를 기준으로 나눴을 떄독립변수y: 바꿀 인덱스종속변수양쪽 값의 차이f(x): 특정 자리 k로 바꾸는 함수독립변수x: 바꿀 인덱스종속변수...?상수k의 값양쪽 범위이 f를 정의하기가 어렵다.f를 어떻게 정의해야 할까?이 f의 독립변수의 개수가 현재 2개라, 시간복잡도가 n^2의 형태가 되고 있다.따라서, f의 독립변수의 개수를 하나로 유지해두고 싶다. pivot을 기준으로 좌측 - 우측을 수행하고, 이 값이 0인 것들의 갯수를 "조건을 만족하는 파티션"이라고 하자.이렇게 정의해뒀을 때, 인덱스 i를 k로 바꿀때마다, 파티션 n-1개가 영향받는다.i개의 파티션이 +diff만큼 변하고, n- i - 1개의 파티션이 -dif..

PS/LeetCode 2025.09.21