熊熊学习乐园

A place for growing

首页
关于
标签
分类
归档

0%

Reinforcement-Learning

发表于 2024-12-22

What is RL

Policy Gradient

actor需要有随机性 # Actor-Critic # Reward Shaping

No Reward:Learning from Demonstration

Adversarial-attack-in-nlp

Domain-Adaptation

文章目录
站点概览

1. What is RL
2. Policy Gradient
3. No Reward:Learning from Demonstration

Houxiong

To learn, To copy

© 2024-11 – 2025 Houxiong