Token ve Context Window Nedir? LLM Bellek Sınırları Rehberi

Token, Context Window ve Bellek Sınırlarının Gerçek Etkisi, Büyük Dil Modelleri (LLM) ile etkileşime geçen her kullanıcının ve geliştiricinin anlaması gereken en kritik teknik eşiktir. Bir yapay zeka modeliyle konuştuğunuzda, onun sizi ne kadar süre "hatırlayabileceği" veya karmaşık bir dökümanı ne kadar derinlemesine analiz edebileceği, bu üç temel kavramın sınırlarına bağlıdır. Günümüzde Gemini'ın 1 milyondan fazla, GPT-4o'nun ise 128 bin token'lık devasa bağlam pencereleri (context window) olsa da, bu rakamların arkasında yatan matematiksel ve donanımsal gerçekler, yapay zekanın performansını doğrudan etkiler. Bu dosya konusunda, dijital zekanın bellek mimarisini ve bu sınırların neden olduğu "bilgi kaybı" gibi fenomenleri detaylandıracağız.

LLM Bellek ve İşleme Parametreleri

Token: Metnin anlamlı en küçük sayısal parçacığı (Ortalama 1.000 token ≈ 750 kelime).
Context Window (Bağlam Penceresi): Modelin tek seferde işleyebildiği maksimum veri hacmi.
Dikkat Karmaşıklığı: Standart Transformers mimarisinde $O(n^2)$ (karesel) artan işlem yükü.
KV Cache (Key-Value Cache): Çıktı üretilirken önceki token'ların bellekte tutulma yöntemi.
VRAM Gereksinimi: Bağlam büyüdükçe GPU belleğine olan ihtiyacın doğrusal olmayan artışı.

Token ve Context Window Nedir? LLM Bellek Sınırları Rehberi

Token, Context Window ve Bellek Sınırlarının Gerçek Etkisi

Token Nedir ve LLM Kapasitesini Nasıl Belirler?

Yapay zeka modelleri metinleri insanlar gibi harf harf veya kelime kelime okumazlar. Veriler, "Tokenization" (Tokenlaştırma) adı verilen bir işlemle sayısal parçalara ayrılır. Token, Context Window ve Bellek Sınırlarının Gerçek Etkisi üzerine yapılan araştırmalar, kullanılan tokenizer algoritmasının (BPE, SentencePiece vb.) modelin zekasını ve maliyetini doğrudan etkilediğini göstermektedir.

Örneğin, İngilizcede yaygın kelimeler genellikle tek bir token iken, Türkçede eklemeli yapı nedeniyle "yapayzekalaştıramadıklarımızdan mısınız?" gibi bir kelime onlarca tokene bölünebilir. Bu durum, aynı bağlam penceresine sahip bir modelde Türkçenin İngilizceye göre daha az "gerçek bilgi" sığdırabilmesine neden olur. Token sayısı, hem API maliyetlerini hem de modelin işlem kapasitesini belirleyen temel birimdir.

Context Window (Bağlam Penceresi): Yapay Zekanın Kısa Süreli Belleği

Context Window veya Bağlam Penceresi, bir modelin bir istemi (prompt) yanıtlarken aynı anda "göz önünde bulundurabildiği" maksimum token sayısıdır. Bu pencereyi bir insanın çalışma masasına benzetebiliriz; masa ne kadar büyükse, aynı anda o kadar fazla evraka bakıp sentez yapabilirsiniz. Ancak masa dolduğunda, yeni bir evrak koymak için eskilerden birini masadan atmanız gerekir.

Bellek Taşması ve Unutma Süreci

Bir sohbet çok uzadığında ve bağlam penceresi sınırı aşıldığında, model konuşmanın en başındaki detayları "unutmaya" başlar. Mühendisler bunu engellemek için "Sliding Window Attention" (Kayan Pencere Dikkat Mekanizması) veya özetleme teknikleri kullansalar da, teknik sınır her zaman mevcuttur.

Neden Sonsuz Bellek Yok? Transformers Mimarisinin Matematiksel Sınırları

Token, Context Window ve Bellek Sınırlarının Gerçek Etkisi incelendiğinde, karşımıza çıkan en büyük engel "Karesel Karmaşıklık" (Quadratic Complexity) problemidir. Standart bir Transformer modelinde, bağlam penceresindeki her bir token, diğer tüm token'larla ilişkilendirilmelidir. Bu da şu anlama gelir:

Bağlamı 2 katına çıkarırsanız, gereken işlem gücü (FLOPs) 4 katına çıkar.
Bağlamı 10 katına çıkarırsanız, işlem yükü 100 kat artar.

Bu matematiksel gerçek, neden 1 milyar token'lık bağlam pencerelerine sahip olmadığımızı açıklar. Devasa pencereler sunan modeller (Claude 3.5 Sonnet veya Gemini 1.5 Pro gibi), "FlashAttention" veya "Sparse Attention" gibi özel algoritmalar kullanarak bu karesel yükü doğrusal düzeye indirmeye çalışırlar. Ancak bu yöntemler bile hala devasa GPU belleği (VRAM) tüketir.

"Lost in the Middle" Fenomeni: Uzun Metinlerde Bilgi Kaybı

Büyük bağlam pencerelerine sahip modellerde görülen en şaşırtıcı durumlardan biri "Lost in the Middle" (Ortada Kaybolma) fenomenidir. Yapılan testler (Needle In A Haystack - Samanlıkta İğne Testi), modellerin bağlam penceresinin en başındaki ve en sonundaki bilgileri çok iyi hatırladığını, ancak orta kısımlardaki detayları genellikle gözden kaçırdığını ortaya koymuştur.

Örneğin, 100 sayfalık bir dökümanı modele yüklediğinizde ve 50. sayfadaki bir detayı sorduğunuzda, model dökümanın tamamını okuduğunu iddia etse de o detayı bulamayabilir. Bu durum, Token, Context Window ve Bellek Sınırlarının Gerçek Etkisi başlığı altında, uzun bağlamın her zaman "kaliteli kavrayış" anlamına gelmediğini kanıtlar.

Bellek Sınırları ve VRAM: Donanımsal Gereksinimlerin Gerçek Etkisi

Bir LLM çalışırken, sadece modelin ağırlıklarını (parametrelerini) değil, aynı zamanda o anki konuşmanın verilerini de bellekte tutmak zorundadır. Buna "KV Cache" denir. Bağlam penceresi büyüdükçe, bu önbelleğin kapladığı yer (VRAM) hızla artar.

7B Parametreli Model: Sadece modeli yüklemek için yaklaşık 14-16 GB VRAM gerekir.
Uzun Bağlam Eklenince: 32k token'lık bir bağlam, ek olarak birkaç GB VRAM daha tüketir.
Çözüm: PagedAttention gibi teknikler, video kartı belleğinin (VRAM) daha verimli kullanılmasını sağlayarak bu sınırları esnetmeye çalışır.

RAG vs. Uzun Bağlam: Hangisi Daha Verimli?

Geliştiriciler, bellek sınırlarını aşmak için iki ana strateji kullanır: "RAG" (Retrieval-Augmented Generation) ve "Long Context" (Uzun Bağlam).

RAG sistemleri, devasa dökümanları harici bir veritabanında saklar ve sadece ilgili kısımları modele gönderir. Bu, modelin bağlam penceresini yormaz ve maliyeti düşürür. Diğer yandan, uzun bağlamlı modeller tüm dökümanı "canlı belleğe" alır. RAG, "kütüphaneden kitap seçip getirmek" gibidir; Uzun Bağlam ise "kütüphanedeki tüm kitapları aynı anda masaya sermek" gibidir. Her ikisinin de performansı, Token, Context Window ve Bellek Sınırlarının Gerçek Etkisi bağlamında farklı kullanım senaryolarına hizmet eder.

Hangi Durumda Hangisi?

Eğer milyonlarca döküman arasından bir bilgi aranıyorsa RAG; ancak bir dökümanın içindeki karmaşık ilişkiler ve genel tema analiz edilecekse Uzun Bağlam (Long Context) tercih edilmelidir.

Androdom'un Notu

Yapay zeka dünyasında "bağlam penceresi" savaşları tam gaz devam ederken, biz editörlerin en çok dikkat ettiği nokta, bu pencerelerin ne kadarının "etkili" kullanıldığıdır. Markalar "1 milyon token" desteğiyle reklam yapsa da, "Lost in the Middle" gibi sorunlar bu pencerelerin hala kusursuz olmadığını gösteriyor. Token, Context Window ve Bellek Sınırlarının Gerçek Etkisi üzerine yaptığımız bu inceleme gösteriyor ki; daha büyük bağlam her zaman daha akıllı bir AI demek değildir. Bir kullanıcı olarak, modele devasa veriler yüklemek yerine, ihtiyacınız olan bilgiyi daha küçük, rafine ve yapılandırılmış parçalar halinde sunmak, modelin performansını ve yanıt kalitesini %40'a varan oranda artıracaktır. Gelecekte, Transformers mimarisinden daha verimli (Mamba veya RWKV gibi doğrusal ölçeklenen) mimarilerin ana akım haline gelmesiyle bu sınırların tamamen kalktığını görebiliriz.