Законы масштабирования
📊Scaling Laws
Kaplan et al. (OpenAI 2020): loss ∝ N^-0.076 (parameters), ∝ D^-0.095 (data), ∝ C^-0.050 (compute). Chinchilla (DeepMind 2022): optimal parameter-to-token ratio 1:20. Conclusion: Llama (smaller but more data) is more efficient than GPT-3
Article body and graph labels may still appear in Russian where English translations have not been added yet.
Loading map...
❓Часто задаваемые вопросы
Законы масштабирования — это тема о правилах, механизмах и практиках в своей области. Она помогает понять, как принимаются решения и к каким последствиям они приводят.
