AI Safety Fundamentals: Alignment

Podcast tekijän mukaan BlueDot Impact

kokeile Podimo ilmaiseksi 90!!! päivän ajan

universumia joka on täynnä satoja podcasteja ja äänikirjoja, klikkaa tätä kokeillaksesi

83 Jaksot

Constitutional AI Harmlessness from AI Feedback
Julkaistiin: 19.7.2024
Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback
Julkaistiin: 19.7.2024
Illustrating Reinforcement Learning from Human Feedback (RLHF)
Julkaistiin: 19.7.2024
Chinchilla’s Wild Implications
Julkaistiin: 17.6.2024
Deep Double Descent
Julkaistiin: 17.6.2024
Intro to Brain-Like-AGI Safety
Julkaistiin: 17.6.2024
Eliciting Latent Knowledge
Julkaistiin: 17.6.2024
Toy Models of Superposition
Julkaistiin: 17.6.2024
Least-To-Most Prompting Enables Complex Reasoning in Large Language Models
Julkaistiin: 17.6.2024
Discovering Latent Knowledge in Language Models Without Supervision
Julkaistiin: 17.6.2024
ABS: Scanning Neural Networks for Back-Doors by Artificial Brain Stimulation
Julkaistiin: 17.6.2024
Two-Turn Debate Doesn’t Help Humans Answer Hard Reading Comprehension Questions
Julkaistiin: 17.6.2024
Imitative Generalisation (AKA ‘Learning the Prior’)
Julkaistiin: 17.6.2024
An Investigation of Model-Free Planning
Julkaistiin: 17.6.2024
Low-Stakes Alignment
Julkaistiin: 17.6.2024
Gradient Hacking: Definitions and Examples
Julkaistiin: 17.6.2024
Empirical Findings Generalize Surprisingly Far
Julkaistiin: 17.6.2024
Compute Trends Across Three Eras of Machine Learning
Julkaistiin: 13.6.2024
Worst-Case Thinking in AI Alignment
Julkaistiin: 29.5.2024
Public by Default: How We Manage Information Visibility at Get on Board
Julkaistiin: 12.5.2024

1 / 5

Listen to resources from the AI Safety Fundamentals: Alignment course!https://aisafetyfundamentals.com/alignment