Discussion about this post

User's avatar
Wilf Lin's avatar

或许可以试试同时奖励低思考token的使用(使用指数级映射到奖励)和正确结果,以便于直接使用现有数据集进行强化学习

Expand full comment

No posts

Ready for more?