📊Scaling Laws

Kaplan et al. (OpenAI 2020): loss ∝ N^-0.076 (parameters), ∝ D^-0.095 (data), ∝ C^-0.050 (compute). Chinchilla (DeepMind 2022): optimal parameter-to-token ratio 1:20. Conclusion: Llama (smaller but more data) is more efficient than GPT-3

Article body and graph labels may still appear in Russian where English translations have not been added yet.
📖6 min read📊Level 7🗺️2 subtopics📅April 16, 2026

Loading map...

Законы масштабирования

Часто задаваемые вопросы

Законы масштабирования — это тема о правилах, механизмах и практиках в своей области. Она помогает понять, как принимаются решения и к каким последствиям они приводят.