
Systemy sztucznej inteligencji szkolone metodą RLHF są systematycznie nagradzane za generowanie wyników, które osiągają wysokie wyniki w średniej preferencji ludzkiej — co matematycznie popycha je w kierunku kreatywnej przeciętności. Niniejszy artykuł definiuje pułapkę B+, identyfikuje RLHF jako mechanizm strukturalny i proponuje ramy Rebel AI oparte na poszukiwaniu nowości, przeciwstawnych agentach dywergencyjnych i metapoznawczej informacji zwrotnej.