AI Safety Fundamentals: Alignment
Podcast tekijän mukaan BlueDot Impact
Kategoriat:
83 Jaksot
-
Constitutional AI Harmlessness from AI Feedback
Julkaistiin: 19.7.2024 -
Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback
Julkaistiin: 19.7.2024 -
Illustrating Reinforcement Learning from Human Feedback (RLHF)
Julkaistiin: 19.7.2024 -
Chinchilla’s Wild Implications
Julkaistiin: 17.6.2024 -
Deep Double Descent
Julkaistiin: 17.6.2024 -
Intro to Brain-Like-AGI Safety
Julkaistiin: 17.6.2024 -
Eliciting Latent Knowledge
Julkaistiin: 17.6.2024 -
Toy Models of Superposition
Julkaistiin: 17.6.2024 -
Least-To-Most Prompting Enables Complex Reasoning in Large Language Models
Julkaistiin: 17.6.2024 -
Discovering Latent Knowledge in Language Models Without Supervision
Julkaistiin: 17.6.2024 -
ABS: Scanning Neural Networks for Back-Doors by Artificial Brain Stimulation
Julkaistiin: 17.6.2024 -
Two-Turn Debate Doesn’t Help Humans Answer Hard Reading Comprehension Questions
Julkaistiin: 17.6.2024 -
Imitative Generalisation (AKA ‘Learning the Prior’)
Julkaistiin: 17.6.2024 -
An Investigation of Model-Free Planning
Julkaistiin: 17.6.2024 -
Low-Stakes Alignment
Julkaistiin: 17.6.2024 -
Gradient Hacking: Definitions and Examples
Julkaistiin: 17.6.2024 -
Empirical Findings Generalize Surprisingly Far
Julkaistiin: 17.6.2024 -
Compute Trends Across Three Eras of Machine Learning
Julkaistiin: 13.6.2024 -
Worst-Case Thinking in AI Alignment
Julkaistiin: 29.5.2024 -
Public by Default: How We Manage Information Visibility at Get on Board
Julkaistiin: 12.5.2024
Listen to resources from the AI Safety Fundamentals: Alignment course!https://aisafetyfundamentals.com/alignment