L'entraînement par chaîne de pensée -ou Chain of Thought (CoT)- guide les LLM à travers un processus de raisonnement simple. Au lieu de poser une seule question, le CoT la décompose en plusieurs parties. Voici un exemple :
Prompt standard :
Steve a 20 chemises. La moitié de ses chemises sont à manches courtes, et la moitié de ces chemises sont bleues. Combien de chemises bleues a-t-il ?
Prompt CoT :
Steve a 20 chemises.
La moitié de ses chemises sont à manches courtes. Cela signifie qu'il possède 10 chemises à manches courtes.
La moitié de ces chemises sont bleues, ce qui signifie qu'il a 5 chemises bleues.
Bien que le prompt en lui-même ne soit pas particulièrement compliqué, le CoT fournit une approche étape par étape pour résoudre le problème, qui montre à un LLM comment répondre à la question. Cette approche peut ensuite être appliquée à d'autres questions.