Ответ на пост «LLM и их хрупкая логика: новое исследование ставит под сомнение Chain-of-Thought»
Там целесообразность исходного исследования можно ставить под вопрос, так как они НЕ используют для него лучшие современные модели, которые как раз показывают значительный прирост качества, если им позволить рассуждать перед ответом на вопрос по физике/математике/программированию, где есть фиксированные правильные ответы. Они учат с нуля модельки в 100-1000 раз меньше, и говорят, что вот эти модельки типа плохо обобщают и значительно хуже работают за пределами обучающей выборки, что как бы не новость, при этом это мало говорит о топ-тир моделях. Товарищи китайцы, которые разрабатывали дипсик, в своем отчёте писали, что модель делает в процессе тренировки резкий скачок после того, как начинает употреблять слово Aha (так называемый aha moment). Есть ощущение, что нужно тестировать модели на их рассуждающую способность уже после того, как они этот aha moment прошли.