Алексей Кривоносов
AI8 мин

Почему ChatGPT ошибается: слепое доверие AI стоит оценок, денег и безопасности

ChatGPT ошибкиAI галлюцинацииLLM ограничениядоверие к AI
Читать оригинал в Telegram

Двойка от ChatGPT: реальная история

В марте 2026 года по сети разошёлся скриншот, который стоит показывать каждому, кто безоговорочно доверяет нейросетям. Школьница готовилась к экзамену по химии с помощью ChatGPT. Задала вопросы, получила уверенные развёрнутые ответы. Пришла на экзамен. Получила двойку.

Самое показательное произошло потом. Девушка вернулась в чат и спросила ChatGPT: «Я провалила экзамен. Почему?» И нейросеть ответила: «Скорее всего, вы провалили экзамен, потому что мои ответы были неправильными».

Не «возможно, вы неправильно поняли мои ответы». Не «попробуйте пересдать». AI прямым текстом признал: мои ответы были ошибочными. При этом в момент выдачи этих ответов никаких оговорок не было. Ответы звучали уверенно, аргументированно, со ссылками на формулы и реакции.

Почему это не баг, а фича

Многие думают, что ошибки ChatGPT — это временная проблема, которую исправят в следующей версии. Это не так. Ошибки встроены в саму архитектуру больших языковых моделей.

Как работает LLM изнутри

Большая языковая модель — это не база знаний. Это статистическая машина предсказания следующего слова. Когда ChatGPT отвечает на вопрос по химии, он не «вспоминает» формулу из учебника. Он генерирует последовательность токенов, которая статистически похожа на тексты по химии, встречавшиеся в обучающих данных.

Ключевое слово — похожа. Не «является», а «похожа». Модель создаёт текст, который выглядит как правильный ответ. Иногда он действительно правильный — когда статистические паттерны совпадают с реальностью. Иногда нет.

При этом модель не знает, правильный у неё ответ или нет. У неё нет механизма проверки. Уровень уверенности в тоне ответа не связан с его точностью. Модель может ошибиться в базовом факте и при этом написать три абзаца убедительного обоснования.

Конкретные механизмы ошибок

Смешение источников. Модель обучалась на миллиардах текстов. Среди них — учебники, форумы, статьи, обсуждения. Часть этих текстов содержит ошибки. Модель не различает авторитетный учебник и некорректный пост на форуме. Она может взять формулу из одного контекста и подставить коэффициенты из другого.

Устаревшие данные. Обучающие данные имеют дату отсечки. Всё, что изменилось после этой даты, модели неизвестно. Обновлённые стандарты, пересмотренные формулы, отменённые нормативы — модель продолжает ссылаться на старую информацию.

Статистическая интерполяция. Когда модель сталкивается с вопросом, на который в обучающих данных нет прямого ответа, она не говорит «не знаю». Она конструирует ответ из похожих фрагментов. Результат выглядит правдоподобно, но может быть полностью выдуманным.

Химия — полбеды. В строительстве ставки выше

Двойка по химии — это неприятно, но не опасно. Можно пересдать. В строительстве цена ошибки принципиально другая.

За 12 лет в строительстве я видел, как ошибки в нормативах приводят к реальным последствиям: трещины в стенах, промерзание фундаментов, обрушение конструкций. И это ошибки людей, которые хотя бы пытались работать по нормам. Теперь представьте, что нормы подсказывает AI, который уверенно ссылается на несуществующие пункты документов.

Как ChatGPT ошибается в строительных нормах

Я тестировал несколько LLM на строительных вопросах. Результаты одинаковые у всех моделей.

Несуществующие пункты СП. Спрашиваешь про минимальный защитный слой бетона — получаешь ответ со ссылкой на конкретный пункт, конкретную таблицу. Открываешь СП 63.13330 — такого пункта нет. Или пункт есть, но говорит про другое. Формат ответа безупречный: номер документа реальный, структура ссылки правильная. Подвох может заметить только тот, кто работает с этим документом регулярно.

Смешение отменённых и действующих норм. Российская нормативная база — это слоёный пирог из СНиП, СП и ГОСТ разных лет. ChatGPT легко смешивает требования из СНиП 1980-х годов с актуальным СП 2020-х. Получается гибрид, который никогда не существовал в реальных документах.

Выдуманные формулы. Самое опасное. Модель генерирует расчётную формулу с правильными обозначениями и размерностью, но с неверными коэффициентами. Если инженер использует такую формулу для расчёта несущей способности, результат может отличаться от правильного на 20-40%. Для конструктива это катастрофа.

Реальные примеры из моей практики

За последний год ко мне обращались несколько подрядчиков, которые использовали ChatGPT для подготовки коммерческих предложений. В двух случаях в КП были указаны несуществующие ГОСТы на материалы. В одном случае AI «сослался» на ГОСТ по утеплению фасадов, которого в природе не существует. Заказчик это заметил. Подрядчик потерял контракт.

Другой пример: проектировщик использовал ChatGPT для подбора толщины утеплителя. Модель выдала расчёт со ссылкой на СП 50.13330. Формулы были похожи на настоящие, но коэффициенты теплопроводности для указанного материала не совпадали с реальными значениями. Если бы этот расчёт пошёл в проект без проверки, дом не прошёл бы по теплотехнике.

Масштаб проблемы: статистика ошибок LLM

Исследования показывают, что в специализированных технических областях LLM ошибаются значительно чаще, чем в общих вопросах. Причина простая: технических текстов в обучающей выборке меньше, а требования к точности — выше.

Для строительных нормативов ситуация ещё хуже. Многие российские СП и ГОСТ в открытом доступе представлены фрагментарно, часто в пересказе, иногда с ошибками. Модель обучалась на этих неполных данных и теперь воспроизводит ошибки, дополняя их собственными галлюцинациями.

При этом пользователи продолжают доверять AI. Опросы показывают, что более 60% пользователей не проверяют ответы ChatGPT, если они звучат убедительно. Для школьной химии это двойка. Для строительства — потенциально опасные конструкции.

Решение: от генерации к извлечению

Проблема галлюцинаций — не приговор для AI в технических областях. Но она требует принципиально другого подхода. Не генерировать ответы из «памяти» модели, а находить ответы в верифицированных источниках.

Этот подход называется RAG — Retrieval-Augmented Generation (генерация с дополнением извлечением).

Как работает RAG

  1. Верифицированная база документов. В систему загружаются полные тексты действующих нормативов — СП, ГОСТ, СТО. Каждый документ проверен на актуальность. Отменённые нормы исключены.
  2. Семантический поиск. Когда пользователь задаёт вопрос, система ищет релевантные фрагменты в базе, а не в «памяти» модели.
  3. Генерация на основе найденного. LLM формулирует ответ, опираясь исключительно на найденные фрагменты документов. Не додумывает, не интерполирует.
  4. Ссылки на первоисточники. Каждый ответ содержит ссылки на конкретные пункты реальных документов.
  5. Честное «не знаю». Если в базе нет ответа — система говорит об этом, а не генерирует правдоподобную выдумку.

Цифровой Стандарт: RAG для строительных нормативов

Именно эту архитектуру я реализовал в платформе «Цифровой Стандарт». Она работает с верифицированной базой строительных нормативов: более 300 документов, десятки тысяч страниц, включая формулы, таблицы, приложения.

Принципиальное отличие от ChatGPT: платформа не выдумывает ответы. Она находит ответ в реальном документе и показывает источник. Если ответа в базе нет — честно об этом говорит.

Проблема шире, чем кажется: эффект Даннинга-Крюгера наоборот

Ситуация со школьницей вскрывает ещё одну проблему. ChatGPT создаёт парадоксальный эффект: чем меньше человек разбирается в предмете, тем больше он доверяет AI. И тем опаснее результат.

Инженер с 10-летним опытом прочитает ответ ChatGPT про армирование и заметит нестыковку. Студент третьего курса — не заметит. Заказчик без строительного образования — тем более. Но именно заказчики всё чаще приходят на переговоры, вооружившись «знаниями» от ChatGPT.

Я встречал это на практике: заказчик приходит и говорит — «мне AI сказал, что для дома 150 квадратов достаточно фундамента глубиной 80 см». Начинаешь разбираться — оказывается, ChatGPT выдал ответ без учёта типа грунта, уровня грунтовых вод, снеговой нагрузки региона. Формально ответ «правильный» — для каких-то идеальных условий. Для конкретного участка — опасно заниженный.

Получается двойной удар: AI даёт некорректный ответ, а неспециалист принимает его за истину. Потом этот «факт» становится аргументом в переговорах, и профессионалу приходится тратить время не на работу, а на разубеждение заказчика.

Правила работы с AI в технических областях

Если вы используете AI для работы — в строительстве, инженерии, проектировании — запомните несколько правил:

Правило 1: AI — ассистент, не эксперт. Используйте AI для ускорения поиска, формулирования черновиков, структурирования информации. Но финальное решение принимает человек с профессиональными знаниями.

Правило 2: проверяйте каждую ссылку. Если AI ссылается на пункт нормативного документа — откройте этот документ и проверьте. Не верьте на слово. Стоимость проверки — 5 минут. Стоимость ошибки — непредсказуема.

Правило 3: используйте специализированные инструменты. Общие модели типа ChatGPT — это молоток. Он подходит для многих задач, но не для всех. Для работы с нормативной базой нужен специализированный инструмент с RAG-архитектурой и верифицированными источниками.

Правило 4: не стесняйтесь говорить «не знаю». Если AI не может подтвердить ответ ссылкой на первоисточник — считайте этот ответ непроверенным. Лучше потратить время на поиск нормы вручную, чем сослаться на выдуманный пункт.

Выводы

Школьница получила двойку по химии. Это обидно, но поправимо. Инженер, который доверится ChatGPT при расчёте несущей конструкции, может получить результат, который не поправишь.

AI-инструменты полезны. Но их полезность прямо пропорциональна пониманию их ограничений. Общие LLM не знают строительных норм — они генерируют текст, похожий на строительные нормы. Для бытовых вопросов этого достаточно. Для профессиональной работы — нет.

Именно поэтому я строю «Цифровой Стандарт» на RAG-архитектуре: не генерация ответов, а извлечение из верифицированных источников. Не уверенный тон вместо знаний, а конкретные ссылки на конкретные документы.

Доверяйте AI, но проверяйте. А лучше — используйте инструменты, которые проверяют за вас.

Поделиться

Нужна консультация по строительству?

12 лет опыта, 200+ построенных домов. Помогу избежать ошибок.

Оставить заявку