Почему не просто запустить Claude Fable 5 на каждом сообщении — разве качество не важнее стоимости?

Качество важнее стоимости, да — но качество не растёт если использовать более capable модель на задаче которую более дешёвая уже решает правильно. 95% Telegram-сообщений — «очевидно чистые» или «очевидно спам» — deterministic-фильтры и малые модели классифицируют их с той же точностью что и frontier, в миллисекундах, за долю цента. Маршрутизировать эти сообщения через Fable 5 — сжигать деньги без улучшения outcome. Frontier capability имеет значение на hard 5%, и именно там мы её используем.

Какая реальная стоимость одного сообщения в масштабе Varta?

Зависит от tier-а который обрабатывает сообщение. Tier 1 (deterministic filters, regex, account-age signals) стоит практически 0 — микросекунды CPU. Tier 2 (sender history lookup, cross-group reputation query) стоит долю миллицента — database read. Tier 3 (small LLM triage на borderline messages) стоит ~$0.0005 за вызов. Tier 4 (frontier-модель на genuinely ambiguous cases) стоит $0.01-0.05 за вызов. Средняя стоимость по всем tier-ам: значительно меньше $0.001/сообщение. Запуск Fable 5 на каждом сообщении усреднился бы в $0.01-0.03 — 10-30× больше.

Не пропустят ли более дешёвые tier-ы спам который только Fable 5 смог бы поймать?

Пропустили бы если маршрутизируем неправильно. Pipeline спроектирован так что каждый tier знает когда он не уверен — и unsure-сообщения автоматически escalate-ятся до следующего. Tier 1 не пытается обрабатывать ambiguous-cases; уверенно классифицирует easy ones и пропускает остальное вверх. То же для Tiers 2 и 3. Когда сообщение доходит до Fable 5 — это genuinely hard case где малые модели все сообщили low confidence. Frontier-модель с ними справляется хорошо — и только с ними.

Работает ли pipeline-подход для use cases кроме спам-модерации?

Да — это общий паттерн для любой production AI системы в масштабе. Customer support classification, content moderation, document categorization, sentiment analysis, anomaly detection. Принцип тот же: большинство inputs — лёгкие и не требуют наиболее capable модели; hard inputs — где capability имеет значение. Построение routing-layer — знание когда escalate — это и есть реальная инженерная работа. Экономия накапливается; команды что пропускают это или горят runway или ограничивают AI usage в способы что вредят продукту.

Стоит ли использовать Claude Fable 5 для модерации Telegram?

Anthropic выпустил Claude Fable 5 и Claude Mythos 5 сегодня — next generation интеллекта для самых сложных задач знаний и кодинга.

Если ты строишь с LLM-ами — вероятно уже начала читать release notes. Если строишь AI-модерацию для Telegram-групп — в ближайшие недели столкнёшься со соблазном: просто маршрутизируй каждое сообщение через Fable 5. Модель более capable. Классификации будут лучше. Готово.

Не делай этого. Вот математика и архитектура которую мы построили вместо.

Claude Fable 5 и соблазн модерации

Соблазн structural. Каждый раз когда выходит более capable frontier-модель, команды из школы «брось лучшую LLM на каждую задачу» получают бесплатный апгрейд — их существующий pipeline вызывает более умную модель и выдаёт лучшие классификации. Выглядит как прогресс.

Для модерации соблазн острее. Спам в 2026 genuinely sophisticated — Cyrillic-Latin подмена, image-embedded URL, slow-funnel разговоры через несколько сообщений, admin-impersonator profile clones. Более capable модель лучше справляется с edge cases. Аргумент пишет себя.

Проблема в том что аргумент правильный про качество и неправильный про экономику. В масштабе Telegram-сообществ «брось лучшую LLM на каждую задачу» становится per-month bill который ломает unit economics free-tier модерации.

Математика frontier на каждом сообщении

Давай конкретно в production-realistic числах.

Типичное Telegram-сообщество которое защищает Varta обрабатывает ~30-100 сообщений в день в активные периоды. 48-сообщественная сеть обрабатывает ~2,000-5,000 сообщений в день суммарно. Каждое сообщение в среднем ~50-200 токенов после стрипа metadata.

Если запустить каждое сообщение через frontier-модель — скажем $15 за миллион output-токенов по текущему Sonnet-class pricing, больше за действительно top-tier — per-message стоимость выходит ~$0.005-0.03. При 5,000 сообщений в день — это $750-4,500 в месяц. По 48 защищённым сообществам.

Для free-tier moderation-инструмента эти числа не работают. Или передаёшь cost на пользователей (разрушив смысл «free until first spam catch»), или съедаешь сам (разрушив смысл sustainable business). Экономика moderation-as-product требует чтобы большинство сообщений классифицировались за доли цента каждое.

Тем временем — и это что naive-подход пропускает — большинство сообщений не требуют frontier-модели для правильной классификации. Чистые — очевидно чистые. Crude-спам — очевидно crude. Frontier выдаёт тот же verdict как deterministic-правило, за orders of magnitude больше cost. Capability differential имеет значение только на genuinely ambiguous cases.

Multi-stage pipeline

Что мы построили вместо: четыре tier-а, escalating в capability и стоимости. Каждый обрабатывает что может уверенно обработать и передаёт остальное вверх.

Tier	Что обрабатывает	Cost / сообщ.	Доля трафика
1	Deterministic-фильтры + account signals	~$0	60–70%
2	Sender history + cross-group reputation	< $0.0001	15–20%
3	Small LLM triage (дешёвая модель)	~$0.0005	10–15%
4	Frontier-модель (Claude Fable 5)	$0.01–0.05	3–7%
Средневзвешенно по всем уровням		< $0.001	100%

Tier 1 — Deterministic-фильтры и account signals. Ловит: blatant promotional content, known-bad URL patterns, аккаунты что fail-ят platform-level checks. Confidence: high на cases где действует. Не пытается обрабатывать ambiguity — передаёт unclear-cases Tier 2.

Tier 2 — Sender history и cross-group reputation lookup. Ловит: known spammers по сети, повторных offenders, аккаунты flagged в других Varta-защищённых сообществах. Confident classifications act, ambiguous ones escalate.

Tier 3 — Small-model triage. Ловит: routine spam patterns что требуют linguistic context но не heavy reasoning. Cyrillic-Latin подмена, basic phishing, low-effort cross-language scams. Confidence threshold калиброванный — borderline outputs идут до Tier 4.

Tier 4 — Frontier-модель на hard cases. Ловит: genuinely ambiguous cases. Slow-funnel scams через несколько сообщений. Sophisticated admin-impersonators. Borderline marketplace listings. Image-content что требует vision + reasoning.

Для ~5,000 ежедневных сообщений сети total LLM-bill в низких сотнях долларов в месяц — не тысячах.

Качество moderation-решений не падает потому что escalation-логика калибрована. Каждый tier знает когда не уверен. 3-7% сообщений что доходят до Tier 4 получают ту же frontier-capability что получили бы в naive «route everything to Fable 5» setup-е. 93-97% что resolve-ются на lower tiers — получают ту же правильную классификацию за долю cost.

Где Claude Fable 5 реально принадлежит в стеке

Сильные стороны Fable 5 — frontier-reasoning, сложное contextual суждение, multi-step inference — это именно то что Tier 4 требует. Поставить её там — не downgrade; это правильное размещение.

Конкретно вот где Fable 5 начинается в Varta-стеке:

Slow-funnel conversation detection через 3-7 сообщений от одного sender (требует reasoning через context-windows которые малые модели плохо держат).
Admin-impersonator pattern detection где поведение subtle (legitimate-seeming первые сообщения, payment-script только в DM после building rapport).
Marketplace borderline listings где вопрос «это legitimate seller или scam funnel» — требует оценки фото, цен, описаний и account-context вместе.
Multilingual edge cases где сообщение мешает языки, idiom-ы не translate-ются чисто, intent нужно inferr-ить из cultural context.
Verdict-level reasoning для live-classifier demo на нашей landing-page — когда кто-то paste-ит сообщение чтобы увидеть как Varta обработала бы, мы хотим frontier-reasoning потому что объяснение — это продукт.

Frontier-модель зарабатывает свой cost в тех случаях. Заработала бы тот же cost на cases которые малые tier-ы тоже классифицируют правильно — и не заработала бы ничего для пользователя потому что verdict не изменился бы.

Более широкий принцип для AI builders

Урок обобщается за пределы модерации.

Инженерный вопрос не «какая лучшая модель для этой задачи?». Это «какая самая дешёвая стадия может ответить с достаточной уверенностью?»

Плюс corollary: «как я узнаю когда эта стадия не уверена?»

Первый вопрос про capability matching. Второй про calibration. Большинство команд пропускают calibration-шаг — выбирают модель, запускают всё через неё, ship — и заканчивают или burning runway на токенах что не улучшают outcome, или capping AI usage в способы что вредят продукту. Команды что строят routing-layer получают оба: то же качество, долю cost.

Для модерации конкретно вот примерный паттерн если строишь с нуля:

Старт с deterministic filters для obvious cases — дешёвые и обрабатывают большинство volume.
Добавь sender history layer что позволяет known patterns short-circuit. Cross-group reputation, account-age signals, behavior history.
Используй дешёвую LLM как default classifier для ambiguous cases. Calibrate её знать когда не уверена.
Резервируй frontier-модель для самых сложных cases — тех где small-модель explicit сказала «не знаю» или вернула low confidence.
Логируй всё. Наблюдай какие сообщения каждый tier обрабатывает. Adjust threshold-ы когда видишь misrouting.

Архитектура не новаторская. Это как production-системы строились десятилетиями — escalation с cheap heuristics до expensive computation. Что новое в 2026 — это что «expensive computation» tier — это frontier LLM, и cost asymmetry между tier-ами enormous.

Claude Fable 5 — инструмент. Sharp один. Использованный в правильном месте стека, делает hard cases tractable. Использованный в каждом месте — сжигает деньги на cases которые не требовали.

Если строишь что-то AI-driven в масштабе — multi-stage pipeline стоит твоего engineering-времени. Экономия compound month over month. Качество не падает. И когда Fable 6 выйдет в следующем году, твой стек absorb-нёт апгрейд на Tier 4 без balooning cost на Tier 1-3.

Это и есть engineering-реальность за модерацией что стоит $0.001/сообщение вместо $0.01. Та же интеллигентность. Маршрутизированная туда где интеллигентность реально нужна.

Связанные статьи

Varta — это Trust Layer для Telegram: AI-модерация на 33 языках, построенная на multi-stage pipeline что оставляет frontier-модели для hard cases. Бесплатный forever тариф с базовой keyword-защитой; 5-дневный full-AI триал начинается только когда Varta поймает твой первый спам. Добавь Varta бесплатно →