Sonnet 4.6'dan 5'e: Shobi Agent'ta gerçek fark ne oldu?
Claude Sonnet 5 çıktığı gün Shobi Agent ve Mağaza Asistanı'nı bu modele geçirdik. Ama 'en yeni model kesin daha iyidir' demedik — ölçtük. İki farklı markada, aynı soruları hem Sonnet 4.6'ya hem Sonnet 5'e sorduk. Bulduğumuz fark, beklediğimizden daha ilginç: 5 daha akıllı değil, daha güvenilir.

Anthropic'in yeni modeli Claude Sonnet 5 çıktığı gün, Shobi Agent ve Mağaza Asistanı'nı aynı gün bu modele geçirdik. Ama asıl mesele tek satırlık bir güncelleme değildi: Bir iş zekâsı ürününde modeli yükseltmek gerçekte neyi değiştirir? Cevabı ölçtük — ve bulduğumuz şey, "yeni model daha iyidir" klişesinden daha ilginç.
Shobi'de sizin yerinize rakamları yorumlayan bir yapay zekâ var. "Bu hafta satışlar nasıl?" diye sorduğunuzda size yalnızca bir tablo dönmüyor; o tablonun ne anlama geldiğini, neyin normal neyin anormal olduğunu, hangi kıyasın adil hangisinin yanıltıcı olduğunu da söylüyor. İşte tam bu noktada, motorda hangi modelin çalıştığı önemli hâle geliyor.
Sonnet 5 nedir, neyi değiştiriyor?
Sonnet 5, Anthropic'in Claude ailesindeki en yeni "orta seviye" modeli — ama getirdiği sıçrama küçük değil. Anthropic'in tanımıyla model artık "plan yapabiliyor, tarayıcı ve terminal gibi araçları kullanabiliyor ve otonom çalışabiliyor" — hem de önceden yalnızca çok daha pahalı modellerin başardığı bir seviyede. Erken erişim ortakları en çok şunu vurguladı: Sonnet 5, "önceki Sonnet modellerinin yarıda bıraktığı karmaşık işleri sonuna kadar götürüyor."

Sayılarla bakıldığında en çarpıcı nokta fiyat/performans dengesi. Sonnet 5'in performansı, Anthropic'in çok daha yetenekli üst modeli Opus 4.8'e yakın — ama belirgin biçimde daha düşük maliyetle. Ajanlı arama (BrowseComp) ve bilgisayar kullanımı (OSWorld) gibi zorlu testlerde, orta efor seviyesinde ciddi bir maliyet verimliliği sağlıyor.

Sonnet 5'in çeşitli değerlendirmelerdeki puanları, Sonnet 4.6 ve — referans olması için daha genel yetenekli bir model olan — Opus 4.8 ile karşılaştırmalı. Daha ayrıntılı değerlendirmeler için Claude Sonnet 5 System Card yayınlandı. (Kaynak: Anthropic)
Bizim için bir başka önemli detay güvenlik tarafındaydı: Anthropic, Sonnet 5'in Sonnet 4.6'ya kıyasla "istenmeyen davranışlarda daha düşük bir orana" sahip olduğunu, kötü niyetli istekleri daha iyi reddettiğini ve prompt injection saldırılarına daha dirençli olduğunu belirtiyor. Müşteri verisiyle çalışan, müşterinizin karşısına çıkan bir asistanda bu, "güzel olur" değil "olmazsa olmaz" bir özellik.
Neden bir iş zekâsı ürününde model önemli?
Bir sohbet botunda modelin görevi güzel cümle kurmaktır. Bir iş zekâsı aracında ise görev tamamen farklı: rakamı doğru yorumlamak. Shobi Agent size "Trendyol'da bu ay ciro şu kadar" demiyor yalnızca; bunun geçen aya göre ne ifade ettiğini, kıyasın adil olup olmadığını, verinin güvenilir olup olmadığını da söylüyor.
Burada en tehlikeli hata, yanlış bir rakamı emin bir dille söylemektir. İyi bir model, bilmediğini bildiğinde bunu söyleyebilendir. Bu yüzden Sonnet 5'i "en yeni, kesin daha iyi" diye değil, ölçerek değerlendirdik: iki farklı sektörden markamızda, aynı soruları hem Sonnet 4.6'ya hem Sonnet 5'e sorduk. İşte gerçek fark.
Örnek 1: Yanıltıcı kıyası reddetmek
Bir markamıza "bu hafta satışlar nasıl?" diye sorduk. Hafta yeni başlamıştı — sadece üç gün geçmişti.
Yeni model, önceki döneme göre satışların yüzde 66 düştüğünü gördü. Ama bu rakamı olduğu gibi sunmak yerine hemen ekledi:
"Dikkat — bu hafta henüz üç gün, önceki dönem tam yedi gün. Gün sayısı eşit değil, bu adil bir kıyas değil."
Yani sizi gereksiz bir paniğe sürüklemek yerine, kıyasın kendisinin kusurlu olduğunu söyledi. Ardından günlük trende bakıp asıl mesajı verdi: dün güçlü bir gündü, bugün ise henüz yeni başladığı için düşük — düşüş değil, eksik gün.
Eski model de haftanın tamamlanmadığını fark ediyordu. Ama bu "eşit olmayan pencere" muhakemesini bu netlikte kurmuyor, kıyası çoğu zaman ham hâliyle bırakıyordu. Fark küçük görünebilir; oysa "yüzde 66 düştük" ile "kıyas henüz adil değil, panik yok" arasındaki uçurum, o gün vereceğiniz kararı tamamen değiştirir.
Örnek 2: Kendi verisine şüpheyle bakmak
En çarpıcı fark buydu. Bir markamızın reklam ve analitik verisini sorduğumuzda, Sonnet 5 kendi çektiği rakamlardan birine güvenmedi:
"Analitik tarafında aynı tarihe ait çift kayıtlar görüyorum — muhtemelen platform geçişinden kalan bir teknik sorun. Bu yüzden buradaki dönüşüm oranına tam güvenmiyorum; bu ayrı ele alınmalı."
Bir başka markada da, şehir bazlı satış dökümünde toplam sipariş sayısıyla şehir kayıtları arasındaki farkı yakaladı ve mükerrer bir yazım hatasını ("İstanbul" ile "İsttanbul" olarak iki ayrı satıra düşmüş aynı şehir) işaretledi.
Bunların hiçbirini sormamıştık. Model, verinin içindeki kiri kendiliğinden fark etti ve raporunu buna göre yumuşattı. Bir iş zekâsı aracında bu altın değerinde: çünkü size güzel ama yanlış bir tablo sunmak yerine, "bu rakama şu nedenle temkinli yaklaş" diyor. Karar sizin, ama artık zeminin sağlam olup olmadığını biliyorsunuz.
Peki eski model kötü müydü? Hayır.
Dürüst olalım: Sonnet 4.6 hâlâ güçlü bir model, ve bunu testte açıkça gördük. Özellikle "hangi platforma, hangi reklama odaklanayım?" gibi stratejik sorularda 4.6 çok net, öncelik sıralı, "şu kampanyayı durdur, şu bütçeyi kaydır" diyebilen kararlı tavsiyeler verdi. Kimi yerde Sonnet 5'in daha temkinli, "karar senin" tonundan daha doğrudan uygulanabilirdi.
Yani mesele "5 akıllı, 4.6 zayıf" değil. İki modelin karakteri farklı: 4.6 kararlı bir danışman gibi, 5 ise titiz bir analist gibi davranıyor. Sonnet 5'in asıl kazanımı daha iyi tavsiye değil — daha yüksek hız, daha düşük maliyet ve hepsinden önemlisi daha güvenilir bir muhakeme.
Sonuç: en yeni olanı değil, ölçüleni seçiyoruz
Sonnet 5'in bu davranışlarını — eşitsiz kıyasları reddetme, kendi verisine şüpheyle bakma — birbirinden tamamen farklı iki sektörde, iki ayrı markada gözlemledik. Aynı davranışın farklı veri şekillerinde tekrar etmesi, bunun tesadüf değil, modelin gerçek bir özelliği olduğunu gösteriyor.
Shobi'de model seçimini işte böyle yapıyoruz: en yeni olanı körlemesine değil, sizin verinizde ölçerek. Çünkü sonuçta o rakamları yorumlayıp size karar önerecek olan bu model. Ve bir iş ortağında aradığınız ilk şey, bilmediğini bildiğinde bunu söyleyebilmesidir.
Shobi Agent ve Mağaza Asistanı artık Claude Sonnet 5 ile çalışıyor.


