Çok Ajanlı Araştırma Sistemi: Anthropic'in Üretim Hattından Mimari Dersler
Anthropic kendi Research özelliğini orchestrator-worker mimarisiyle kurdu. Sonuç: tek ajana göre %90.2 daha iyi performans. Peki bedeli ne?

Anthropic'in mühendislik blogundaki How we built our multi-agent research system yazısı, ajan mimarisi üzerine çıkmış en somut üretim vakalarından biri. Etkili AI ajanları yazısı teoride desenleri anlatıyordu; bu yazı ise Anthropic'in kendi Research özelliğinin gerçek hayatta nasıl kurulduğunu paylaşıyor.
Sonuçlardan biri açık ara öne çıkıyor: çok ajanlı kurulum tek ajana göre %90.2 daha iyi performans gösteriyor. Ama bu performans bedava değil. Yazıyı satır satır okumak yerine, Anthropic'in gerçekten öğrettiği şeyleri çıkardık.
Mimari: orkestratör-işçi hiyerarşisi
Sistem üç katmandan oluşuyor:
- Lead Agent (Claude Opus 4): Sorguyu analiz eder, strateji üretir, alt ajanları koordine eder.
- Subagent'lar (Claude Sonnet 4): Paralel çalışır, her biri sorunun farklı bir boyutunu araştırır.
- CitationAgent: Sonuçları kaynak referanslarıyla eşleştirir.
Ek olarak bir memory layer var — 200.000 token'lık context sınırı aşıldığında araştırma planı kaybolmasın diye.
Bu hiyerarşinin mantığı şu: pahalı ve güçlü modeli yönetici rolüne ata, ucuz ve hızlı modelleri işçi olarak paralel çalıştır. E-ticaret bağlamında benzeri rahatlıkla kurulabilir: bir orkestratör "rakip fiyat analizi yap" görevini alır, 5 pazaryeri için 5 subagent fırlatır, gelen verileri birleştirip kullanıcıya tek bir öneri sunar.
Performans: dramatik kazanım, dramatik maliyet
Yazıdan birebir alıntı: "a multi-agent system with Claude Opus 4 as the lead agent and Claude Sonnet 4 subagents outperformed single-agent Claude Opus 4 by 90.2%."
Ama token kullanımı da o kadar dramatik:
- Standart chat: temel
- Tek ajan: ~4 kat daha fazla token
- Çok ajanlı sistem: ~15 kat daha fazla token
Yazının bir başka kritik bulgusu, BrowseComp değerlendirmesinde performans varyansının açıklayıcı faktörleri:
- Token kullanımı tek başına: %80
- Araç çağrıları + model seçimi: kalan %15
Bu, çok ajanlı mimarinin token-açgözlü olduğunu kabul eden dürüst bir öz-eleştiri. Anthropic, "agentic" yaklaşımları her senaryoya değil, kullanıcı değerinin maliyeti haklı kıldığı senaryolara önermek gerektiğinin altını çiziyor.
Sekiz prompt mühendisliği dersi
Yazının kalbi burada. Üretim ortamında çalışırken biriken sekiz pratik ders:
- Mental modeling: Prompt'u değiştirmeden önce, ajanın bir senaryoda nasıl karar verdiğini Console üzerinde simüle et.
- Açık delegation: Subagent'a görevi sadece "araştır" diye değil, hedef + çıktı formatı + araç önerisi + sınırlar olarak ver. Vague talimat = duplikasyon.
- Effort scaling: Basit sorgu için 1 ajan + 3-10 çağrı, karmaşık için 10+ subagent. Bu kuralı prompt'a göm, modele bırakma.
- Tool tasarımı kritik: Kötü tool açıklamaları ajanı "down completely wrong paths" yönlendiriyor. Tool döküman kalitesi UX meselesi.
- Self-improvement: Claude kendi prompt başarısızlıklarını teşhis edip iyileştirme önerebiliyor. Anthropic, tool açıklamalarını iteratif iyileştiren bir tool-testing agent ile tamamlanma sürelerini %40 düşürmüş.
- Arama stratejisi: Geniş başla, daralt. Uzman bir insan araştırmacının yaptığını taklit et.
- Extended thinking: Görünür düşünme adımları, ajanın planını gözlemlenebilir/kontrol edilebilir kılıyor.
- Paralel araç çalıştırma: Senkron araç çağrıları "acı verecek kadar yavaş". Hem subagent oluşturmayı (3-5 paralel) hem de tek tek araç çağrılarını paralelize etmek araştırma süresini %90'a kadar düşürmüş.
Üretimde gördükleri başarısızlık desenleri
Anthropic dürüst bir biçimde erken sürümlerde gördükleri sorunları paylaşıyor:
- Overprovisioning: Basit bir sorgu için 50+ subagent başlatma. Çözüm: scaling kurallarını prompt'a gömmek.
- Endless searching: Var olmayan kaynakları sonsuza kadar aramak. Çözüm: net durma kriteri.
- İş tekrarı: Birden fazla subagent aynı aramayı yapması. Çözüm: spesifik görev tanımları.
- Kaynak yanlılığı: Erken ajanlar SEO-optimize "content farm" sitelerini akademik PDF'lere tercih ediyordu. Çözüm: kaynak kalitesi heuristic'leri.
- Senkron darboğaz: Tek bir subagent'ı beklemek tüm sistemi bloke ediyordu.
Bu liste özellikle değerli çünkü "ajan kurduk, çalıştı" hikayesini değil, kurarken takıldıkları yerleri anlatıyor. Üretim için ipuçları burada.
Değerlendirme zorluğu: adım-adım değil, sonuç bazlı
Anthropic'in en ilginç gözlemi: geleneksel "her adımı kontrol et" değerlendirme yaklaşımı ajanlarda işe yaramıyor. Çünkü ajan aynı sonuca farklı yollardan ulaşabiliyor — ve bu yanlış değil.
Çözüm olarak benimsedikleri yaklaşımlar:
- Küçük örneklemle başla: ~20 test case'le bile etki dramatik (%30 → %80) görünür hâle geliyor.
- LLM-as-judge: Faktüel doğruluk, kaynak doğruluğu, eksiksizlik, kaynak kalitesi, araç verimliliği — tek bir rubric'te.
- Manuel test: Otomasyonun yakalayamadığı kenar durumları (özellikle halüsinasyonları) elle test ortaya çıkarıyor.
Üretim mühendisliği: prototip != prodüksiyon
Yazının belki en önemli mesajı şu: "the gap between prototype and production is often wider than anticipated."
Anthropic'in karşılaştığı üretim sorunları:
- State yönetimi: Onlarca tool çağrısı boyunca state taşımak gerekiyor. Sıfırdan başlatmak pahalı; checkpoint'ten devam edebilmeli.
- Non-determinism: Aynı prompt farklı yollardan geçebilir, debug zorlaşır. Çözüm: tam üretim trace'i — konuşma içeriğini değil, karar paternlerini izle.
- Deployment: Sürekli çalışan stateful ajan ağları için "rainbow deployment" gerekiyor — eski/yeni versiyonlar arasında trafiği yumuşak geçişle kaydır, in-flight ajanları kırma.
- Senkron tıkanıklık: Mevcut mimari hâlâ tüm subagent'ların bitmesini bekliyor. Asenkron yapı performansı artıracak ama state tutarlılığı/hata yayılımı yeni problemler getirecek.
Shobi açısından sonuç
Türkiye e-ticaret bağlamında bu yazıdan çıkarılacak dersler:
-
Çok ajanlı yapıyı her yere koymayın. Token maliyeti 15x. Sadece paralel keşfin gerçekten değer ürettiği senaryolar için kullanın: rakip fiyat analizi, çoklu pazaryeri sipariş yorumlama, ürün açıklaması farklı dillerde paralel üretme.
-
Orchestrator-worker e-ticaret için doğal bir oturum. Çünkü pazaryeri sayısı = doğal paralelizasyon ekseni. Trendyol-Hepsiburada-N11-Shopify worker'ları, üstte tek bir orkestratör.
-
Prompt'a sınır gömmek şart. "Tüm pazaryerlerinden veri çek" diyen ajan 50 subagent başlatır. "Sadece son 30 günlük top 100 ürün için, paralel 4 subagent" diyen ajan kontrollü çalışır.
-
Üretime çıkartmak ayrı bir mühendislik disiplini. Prototip hızlı olur, prodüksiyona dayanıklı hâle getirmek aylar alır. State, checkpoint, observability, rainbow deployment — bunlar opsiyonel değil.
90.2% gibi bir performans kazanımı tek ajanın yapamayacağı şeyleri yapma yeteneği demek. Ama 15x token maliyeti, mimari tercihin ekonomik bir karar olduğunu unutturmamalı. KOBİ pazarına AI ürün geliştiriyorsanız, hangi senaryonun çok ajanlı kurguya değdiğini soğukkanlı seçmek başarının yarısı.
Kaynak: How we built our multi-agent research system — Anthropic


