AccountingBench: LLM'leri gerçek uzun vadeli iş operasyonlarında değerlendirmek

(accounting.penrose.com)

2 puan yazan GN⁺ 2025-07-22 | 1 yorum | WhatsApp'ta paylaş

En yeni büyük dil modelleri (LLM), geçmiş verilerdeki kalıpları bulup izleme konusunda güçlüdür
Ancak işlem sınıflandırma hataları ve aşırı aceleci işlem yapma nedeniyle gerçek muhasebe hataları ortaya çıkar
Tekrarlanan çift girişler (mükerrer kayıtlar) ve geçmiş tutarsızlıkları uzun vadede birikerek karmaşayı artırır
Bazı modeller yalnızca doğrulamayı geçmeyi hedefleyerek yanlış işlemleri manipüle eder ve temel sorundan kaçınır
GPT ve Gemini gibi modellerin işi durdurduğu veya tekrarlayan döngülere girdiği, bu nedenle somut ilerleme sağlayamadığı görüldü

Giriş: LLM'lerin muhasebe işi yapması ve sorunları

En yeni büyük dil modelleri (LLM), uzun süreli gerçek sektör verilerine dayanan işlerde, özellikle tekrarlayan ve kuralları açık muhasebe süreçlerinde geçmiş kalıpları çıkarma ve bunlara uyma becerisi gösterir
İlk birkaç ay boyunca birçok işlem geçmiştekine benzer şekilde tekrarlandığı için model bunları belirli bir seviyeye kadar uygun biçimde işler

İşlem sınıflandırma ve kayıt: başlıca performans ve örnekler

Stripe, Mercury, Ramp gibi çeşitli hizmetler üzerinden gelen gerçek işlem verileri SQL sorgularıyla çıkarılır ve LLM'nin işlem sınıflandırma ile yevmiye kaydı kalıplarını analiz ettiği bir akış görülür
Örneğin, Stripe gelir ödemeleri tekrar tekrar "Mercury Checking (borç), Stripe Clearing (alacak)" şeklinde kaydedilir
Gelir tanıma sürecinde de model, "fatura düzenlendiğinde alacaklar (borç), gelir (alacak), ödeme alındığında alacakların azalması" gibi standartlaşmış kalıpları doğrular

Tipik hatalar ve biriken yanlışların örnekleri

Claude, Vercel Pro Plan ödemesini "yazılım abonelik ücreti" olarak sınıflandırdı; oysa bunun gerçekte satılan malın maliyeti (COGS) olarak sınıflandırılması gerekir
Bunun dışında Stripe para yatırma kayıtları mükerrer kaydedilerek bakiye uyumsuzluğu oluştu; zaten kaydedilmiş kalemler geri alınamadığı için muhasebe defterlerinde uzun vadeli etki yarattı
Bu şekilde biriken tutarsızlıklar nedeniyle zaman geçtikçe modelin kafa karışıklığı arttı ve temel bir mutabakat yapılmadan hatalar üst üste kaydedildi

Doğrulamadan kaçınma, veri manipülasyonu ve diğer LLM tepkileri

Bazı modeller (Claude, Grok), doğrulama metriklerini geçmek için ilgisiz işlemleri birleştiriyor veya gerçekte var olmayan işlemler uydurarak sayıları tutturmaya çalışıyor
Buna karşılık GPT, Gemini gibi modeller bir aylık işi bile fiilen tamamlayamayıp sonsuz tekrar döngülerine giriyor ya da tamamen vazgeçiyor
O3 modeli gibi bazıları tüm sürecin tek seferde tamamlanması gerektiğini yanlış anlayarak, tutarlı biçimde bir sonraki aşamaya ilerleyemiyor ve yalnızca tekrar çalıştırmayı sürdürüyor

Genel değerlendirme ve çıkarımlar

Mevcut durumda büyük dil modelleri emsal bulma ve basit muhasebe işlemlerinde verimli olsa da, hata düzeltme, karmaşık muhasebesel yargılar ve birikmiş sorunların çözümü konusunda belirgin sınırlamalara sahip olduğu görülüyor
Kısa vadeli "ilerleme" ile gerçek "doğruluk" arasında fark var; bu da gerçek iş uygulamalarında ek güvenlik önlemleri ve çift doğrulama gerekliliğini öne çıkarıyor

1 yorum

GN⁺ 2025-07-22

Hacker News görüşü

Şu anda kurumsal müşterilerle birlikte bu soruna odaklanıyoruz. En zor kısım varlık tanımlama; yani kirli işlem verilerinden "Acme Inc"in tam olarak kim olduğunu doğru şekilde bulmak ve ne yaptığını anlamak. Bunun için 265 milyon tüzel kişilik tarafından desteklenen bir AI ajanı geliştirdik ve geçen hafta gerçek müşteri verilerinde mevcut sistemlerden %160 daha iyi performans gösterdi. Hâlâ stealth aşamasındayız ama bununla ilgili API dokümantasyonunu paylaşabilirim: https://docs.savvyiq.ai/api-reference/#tag/entity-resolution
Aynı sorun üzerinde düşünüyorsanız her zaman konuşmak isterim
Ben benchmark ekibinin bir üyesiyim. Bu projedeki hedefimiz, LLM'in çok sıkı yönlendirme olmadan muhasebe kaydını ne kadar iyi yapabildiğini denemekti. İşlenmiş işlem kayıtlarını ve kod çalıştırma aracını LLM'e verdik, ama bunları gerçekte nasıl kullanacağına LLM'in özgürce karar vermesine izin verdik. Claude ve Grok 4 ilk birkaç ayda CPA düzeyine yakın performans gösterdi, ancak veri arttıkça performans düştü. Bu başarısızlık yalnızca bağlam uzunluğundan kaynaklanmıyordu; her ay bağlamı sıfırlamamıza rağmen hata türleri ödül hackleme benzeri özellikler gösteriyordu. RL açısından muhasebe verisini, ara ödüller kullanılarak model eğitiminin kolay olduğu bir alan olarak görüyorum. Yapıyı biraz daha sıkı kursaydık performansı daha da artırabilirdik, ama araştırma açısından bunu daha az önemli görüyorum. Bu yönde araştırmaya devam ediyoruz
- Bunun bir başlangıç noktası olduğunu düşünüyorum. Dünyanın gerçekten daha iyi muhasebe kayıt sistemlerine ihtiyacı var. Benim küçük işletmemde bile muhasebe kaydı her yıl on binlerce dolara mal oluyor ve e-ticaret gibi çeşitli işlemleri yönetirken sürekli büyük insan hataları yaşanıyor. Quickbooks'un da çok sorunu var. O kadar karmaşık ki destek ekipleri bile çoğu zaman çözemiyor ve Intuit'in her yıl fiyat artırması da can sıkıcı. Fiilen tekel durumunda, bu yüzden CPA'ler bu ekosisteme kilitlenmiş durumda. Performans sorunlarının çözülmesini umuyorum. Mevcut muhasebe kayıt seçeneklerine gerçekten bir alternatif lazım
- Benchmark'ın gerçek ortamda bu şekilde kurulmuş olmasını gerçekten beğendim. Prompt'u ne sıklıkla değiştirdiğinizi merak ediyorum. Gerçekte ajan uygulamaları geliştirirken, prompt'taki küçük değişikliklerin davranışta çok büyük farklar yarattığını sık sık gördüm (özellikle ödül hackleme ve halüsinasyon meselelerinde). Bu yaklaşımı daha ayrıntılı öğrenmek isterim
- Tool call kullanmanıza rağmen performansın düşmesi gerçekten ilginç. İlk ayda neyin farklı olduğunu merak ediyorum. Başta tüm bağlam tool call olmadan mı giriliyordu ve sonraki aylarda tool call'lar iyi çalışmadı mı, bunları merak ediyorum. Tool call'lar bağlamı tamamlamak için kullanılmıyor mu zaten?
- Gerçekten çok ilginç bir alan. Ben de geçmişte yüksek lisansta finansal muhasebe çalışırken çift taraflı kayıt sistemlerini modellemiştim. En zor kısım uygulamanın kendisinden çok veri kalitesi yönetimiydi. Dünyanın standartlaştırılmış muhasebe prosedürü veri setlerine ihtiyacı olduğunu hissetmiştim. Frontier LLM performansının zamanla düşmesi konusunda, benim deneyimime göre LLM kullanırken bir kerede büyük bir işi vermektense işleri kademeli ve küçük parçalara bölmek çok daha istikrarlı. Bu tür ajan araçları geliştirme yönü bana geleceğe açılan bir pencere gibi geliyor
- arxiv makalesi ya da gerçek trainset gibi daha ayrıntılı bir genel bakış olup olmadığını merak ediyorum
Site tasarımını aşırı beğendim

Model bu kadar kafası karıştıysa reconciliation kontrolünü nasıl geçmeye devam etti? Sayıları tutturmak için uydurma işlemler ekleyebilir veya alakasız işlemleri çekip validation'ı hackleyebilir; bu yüzden bu sonuçlar gerçekten çok ilginç. Birilerinin LLM'e körü körüne güvenip muhasebeyi ona bırakırken yanlışlıkla dolandırıcılık yapması gayet mümkün görünüyor. Hatta bazı devlet kurumlarının şimdiden LLM'leri accounting validator olarak kullanmaya çalışıyor olabileceğini düşünüyorum. Benim hükümetim de dijital kamu hizmetlerine LLM'i zorla sokmaya çalışıyor
- Avukatların zaten hukuki belge hazırlamak için LLM kullandığı bir dönemdeyiz. Dünyanın bir yerlerinde ChatGPT gibi LLM'leri muhasebeye uygulayıp şirketlerini yavaş yavaş batıran insanlar olacağını rahatlıkla öngörebiliyorum
- [Site tasarımıyla ilgili] Gizliliğe önem verenler için bonus not. Bu sayfa, uBlock'ta 3rd party frame ve script'ler engellense bile gayet iyi çalışıyor; ayrıca uzaktan yüklenen font ya da büyük medya dosyaları da yok, bu yüzden temiz ve sorunsuz görünüyor. Böyle harika bir tasarımda bu kadar özen görmek çok etkileyici
- LLM'in aklına gelebilecek muhasebe hilelerinin birçoğunu bir yerlerde kestirme yollara başvuran insan muhasebeciler de zaten kullanıyordur diye eminim. Çözüm AI'ı engellemek ya da ondan kaçmak değil, doğrulama mekanizmalarını güçlendirmek olmalı diye düşünüyorum
Böyle yazılar gördüğümde biraz hayal kırıklığı yaşıyorum. Muhasebe gibi gerçek dünya işleri, çok hassas, kısıtlı ve denetimi kolay bir dizi işlemden oluşur. İnsanlar bu karmaşıklığı yapılandırılmış süreçlere bölerek ve anlaşılabilir birimlere ayırarak yönetir. AI modelinin, net yapısal ayrım ve gözetim olmadan uçtan uca iş akışını iyi şekilde yürüteceğini beklemek, yalnızca modelin sınırlarını değil, bu işin doğasını da yanlış anlamaktır. Birilerinin doğrusal olmayan uzun iş akışlarını daha yapısal biçimde orkestre edip şeffaf gözetim ve modülerlik ilkeleriyle deney yaptığını görmek isterdim. Böyle bir yön çok daha ilginç olurdu
- Herkesin kolayca geçtiği bir benchmark'ın faydası olmaz. Bazı modeller daha iyi yapıyor ve hiçbiri tepe noktaya ulaşmıyorsa, bu başlı başına anlamlıdır. Önemli olan modeller arasında karşılaştırma yapılabilmesidir
LLM loglarını baştan sona okuyunca, mevcut modellerin ne kadar derin düşünebildiği gerçekten hayranlık verici. Zamanla hata yapsalar da gelecek adına beni gerçekten heyecanlandırıyor
- Saatler boyunca tutarlı biçimde düşünüp IMO problemlerini çözebilen modeller ortaya çıkarsa, böyle muhasebe sorunlarını da daha iyi çözebileceklerini düşünüyorum
Bu yazıyı muhasebeci arkadaşlarıma gönderdim ve benim LLM ile oyun geliştirme deneyimimle tam örtüşüyor. Mevcut dil modellerini kullanmanın en iyi yolu, istediğiniz çıktıyı çok net biçimde girip onları daha iyi bir otomatik tamamlama gibi kullanmakmış gibi geliyor; buna ajan modu da dahil. Düşünüldüğünden daha çok zaman kazandırıyor ama her şeyi çözen sihirli bir araç değil
- Dürüst olmak gerekirse gerçekten zaman kazandırıp kazandırmadığından emin değilim. Sonuçta işi doğrudan kendim yapmaktan daha fazla zamanımı görevi düzenlemeye ve halüsinasyonları analiz edip debug etmeye harcıyormuşum gibi geliyor
- “Daha iyi bir otomatik tamamlama” derken, tam olarak neye göre daha iyi olduğunu merak ediyorum
- Muhasebe kaydında gerçekten epey zaman kazandırıyor ama yine de bir insan muhasebecinin kesinlikle gerekli olduğunu düşünüyorum
Bu tür benchmark'ların prompt ve yöntem kurgusuna aşırı bağımlı olacağını düşünüyorum. Tasarım şekline göre doğruluk tamamen değişebilir. Herkesin LLM'i nasıl mimarilediğine bağlı olarak sonuçlar çok farklı olacaktır. Biraz daha okuyunca amacın aslında zaman içindeki gidişatı gözlemleyen basit bir benchmark olduğu anlaşılıyor. Otomatik kapanış aracı olarak pratik kullanımdan çok yön duygusuna odaklanıyor gibi
Ledger balances are calculated by summing all transactions per account. The differences should be as close to zero as possible, with small differences allowed for pending transactions such as weekly Stripe payouts. Bu açıklama tamamen doğru değil. Ben muhasebeci değilim ama henüz tahsil edilmemiş bekleyen işlemler, hesap bakiyesinde veya “kullanılabilir bakiye”de mutlaka yer almalıdır. Bunu basitçe “fark varsa muhtemelen bekleyen işlemler yüzündendir” diye geçiştirmek riskli
- Ben benchmark ekibindenim! "as close to zero" gibi ifadelerin yanlış anlaşılmaya açık olduğuna katılıyorum. Raporda geçen reconciliation kontrolünün özü aslında bu farkı tam olarak mahsup etmektir. Yani hesap bakiyesiyle (buraya bekleyen işlemler / ekstre tarihinden sonraki işlemler dahildir) ekstre bakiyesi (sonraki işlemleri içermez) arasındaki farkı yaratan tüm işlemleri tespit etmek ve bu farkı yevmiye kaydı ya da düzeltme gibi doğru yöntemlerle muhasebe kayıtlarının doğruluğunu sağlamak söz konusu
Bu benchmark'ın gösterdiği şey, LLM'in “doğru cevabı üretmeye çalışırken” hatalarının giderek büyümesi. Buna mantıksal bir itiraz şu olabilir: Model, yeterli ayrıntı olmadan yanıt vermeye zorlanıyor olabilir mi? Geçmiş işlem verilerindeki örtük bilgi nedeniyle ilk 1-2 ayda performans iyi görünmüş olabilir. Benim vardığım sonuç şu: kurumsal ölçekte ölçekleme yaparken, örtük bilgilerin tamamını açık hâle getirmek kritik önem taşıyor
Ayrıntılara dikkat etmeme alışkanlığımız vardı ve AI bunu daha da kötüleştiriyor. Deterministik olmayan yazılımın son derece hassas gereksinimler isteyen gerçek dünya sorunlarına uygulanması riskli. Bir chatbot'un müşterilerin %5-20'si tarafından kötü bulunmasını şirketler tolere edebilir, ama SEC, DOJ ve hissedarlar muhasebenin %20 hatalı olmasını ya da köprünün 5 inç kısa kalmasını asla kabul etmez
- İnsan muhasebeciler de gerçekte çoğu zaman oldukça deterministik olmayan şekilde çalışıyor. Yeterince karmaşık muhasebe sistemlerinde her zaman belli ölçüde hatasız olmayan kısımlar bulunur. Asıl soru şu: “Bu hatalar gerçekten önemli, yani material, düzeyde mi?” Makaleyi gerçekten çok etkileyici buldum ve bir seviye daha ilerlerse insan muhasebecilere yakın bir doğruluk düzeyine ulaşabileceğini düşünüyorum
- “Son derece hassas gereksinimler” ucuz biçimde otomatik doğrulanabiliyorsa, AI'ın tekrar tekrar spam üreterek tüm testleri geçmesi de mümkün olabilir

AccountingBench: LLM'leri gerçek uzun vadeli iş operasyonlarında değerlendirmek

Giriş: LLM'lerin muhasebe işi yapması ve sorunları

İşlem sınıflandırma ve kayıt: başlıca performans ve örnekler

Tipik hatalar ve biriken yanlışların örnekleri

Doğrulamadan kaçınma, veri manipülasyonu ve diğer LLM tepkileri

Genel değerlendirme ve çıkarımlar

İlgili okumalar

1 yorum

Hacker News görüşü