Reinforcement learning

LLM

Tencent создала метод самообучения языковых моделей без человеческих данных
30 августа, 2025

Tencent AI Lab разработала фреймворк R-Zero, позволяющий языковым моделям самообучаться без человеческих данных через co-evolution двух моделей.

Читайте далее Tencent создала метод самообучения языковых моделей без человеческих данных
LLM

Scale AI адаптирует языковые модели для корпораций через reinforcement learning
18 августа, 2025

Scale AI использует reinforcement learning для адаптации языковых моделей под корпоративные данные. Эксперты отмечают технологические сложности внедрения.

Читайте далее Scale AI адаптирует языковые модели для корпораций через reinforcement learning