← Wrocz do cacheback.ai

Jak dziala cacheback

Nie zwykly cache — inteligentna synteza z kontekstem rozmowy. Uczy sie z kazdym pytaniem. 10x tansze AI.

Placisz za to samo pytanie wiele razy

Bez cache

User A: "Co to fotosynteza?" $0.03 · 3s
User B: "Jak dziala fotosynteza?" $0.03 · 3s
User C: "Wytlumacz fotosyntezy" $0.03 · 3s
Razem $0.09 · 9s

Z semantic cache

User A: "Co to fotosynteza?" $0.03 · 3s
User B: "Jak dziala fotosynteza?" $0.00 · 3ms
User C: "Wytlumacz fotosyntezy" $0.00 · 3ms
Razem $0.03 · 3s

To samo pytanie, trzy sposoby. Zwykly cache (exact match) tego nie lapie. Semantic cache — tak.

Zamien tekst na liczby (embedding)

Maly model (90MB, dziala lokalnie) zamienia kazde zdanie na liste 384 liczb. Zdania o podobnym sensie daja podobne liczby. Zdania o innym sensie daja inne liczby.

"Co to jest fotosynteza?"
0.12 -0.45 0.78 0.33 -0.21 0.56 ... x384
"Jak dziala fotosynteza?"
0.11 -0.44 0.79 0.31 -0.19 0.54 ... x384
Podobienstwo:
0.94 CACHE HIT
"Jaka jest stolica Francji?"
0.91 0.22 -0.56 0.08 0.67 -0.33 ... x384
Podobienstwo:
0.23 CACHE MISS

Caly flow w 5 krokach

1
Pytanie przychodzi
"Jak dziala fotosynteza?"
2
Embedding (zamien na liczby)
MiniLM model zamienia tekst na 384 liczb — lokalnie, za darmo
2 ms · $0.00 · na twoim urzadzeniu
3
Szukaj podobne w bazie
Porownaj te 384 liczb z wczesniej zapisanymi pytaniami
1 ms · algorytm: hnswlib (nearest neighbor search)
4
Podobienstwo > 0.88?
Prog decyduje: czy pytanie jest wystarczajaco podobne
TAK → CACHE HIT
Zwroc zapisana odpowiedz
3 ms · $0.00
NIE → CACHE MISS
Wyslij do AI, zapisz odpowiedz
3 sek · $0.03

Nie zwracamy starej odpowiedzi — syntetyzujemy nowa

Zwykly cache zwraca dokladnie to co zapisal. CEAG bierze 5 najblizszych odpowiedzi z cache, dodaje kontekst rozmowy, i maly model syntetyzuje swieza, spersonalizowana odpowiedz. Potem ensemble weryfikuje jakosc.

?
Pytanie
"Jak dziala fotosynteza?"
🔍
Top-5 z cache
hnswlib · 1ms
🧠
Synteza
Phi-4-mini · 300ms
Ensemble
debate / MoA / RPI
Odpowiedz
swieza · kontekstowa
Kontekst rozmowy = te same 5 cacheow, ale inna odpowiedz dla kazdego uzytkownika

Simple Cache

VERBATIM RETURN
Koszt$0.00
Latencja3 ms
Jakoscstala
PersonalizacjaNIE

CEAG

SYNTEZA + KONTEKST
Koszt$0.002
Latencja300 ms
Jakosc~85% GPT-4
PersonalizacjaTAK

Full LLM

PELNE WYGENEROWANIE
Koszt$0.03
Latencja3 sek
Jakosc100%
PersonalizacjaTAK

CEAG = 15x tansze niz Full LLM, 10x wolniejsze niz Simple Cache, ale swieze i spersonalizowane.

Nie tylko tekst — kazda modalnosc

Ten sam mechanizm dziala dla obrazow, glosu i przestrzeni fizycznej. Zmienia sie tylko encoder — reszta infrastruktury identyczna.

💬

Text → Text

Cache odpowiedzi LLM na powtarzajace sie pytania
pytanie → MiniLM → 384 liczb → szukaj → hit/miss
GOTOWE
🎨

Text → Image

Cache wygenerowanych obrazow (DALL-E, Midjourney)
prompt → MiniLM → 384 liczb → szukaj → cached image
1 DZIEN PRACY
🎤

Voice → Text

Cache odpowiedzi na powtarzajace sie komendy glosowe
audio → Whisper → tekst → MiniLM → szukaj → hit/miss
2-3 DNI PRACY
🤖

Image → Action

Cache rozpoznawania przestrzeni dla robotow/dronow
kamera → CLIP → 512 liczb → szukaj → cached action
RESEARCH

Ile oszczedzasz?

Requestow dziennie
Koszt per request ($)
Cache hit rate (%)
Koszt bez cache (dziennie) $300.00
Koszt z cache (dziennie) $120.00
Oszczednosc miesieczna
przy obecnych ustawieniach
$5,400

Cache uczy sie z kazdym pytaniem

Cache zaczyna pusty. Kazda odpowiedz z GPT-4/Claude zapisuje sie automatycznie. Im wiecej pytan, tym wyzszy hit rate — cache staje sie madrzejszy z czasem.

0% 25% 50% 75% Dzien 1-7 Tydzien 2-4 Miesiac 2-3 Miesiac 4+ COLD WARM HOT MATURE ~15% ~35% ~60% 75%+
Dzien 1–7
Cold
0–15%
Cache pusty. Kazde pytanie idzie do GPT-4. Odpowiedzi sie zapisuja.
Tydzien 2–4
Warm
15–35%
Popularne pytania trafiaja w cache. CEAG syntetyzuje warianty.
Miesiac 2–3
Hot
35–60%
Cache pokrywa wiekszosc tematow. Koszty spadaja o polowe.
Miesiac 4+
Mature
60–75%+
Cache jest ekspertem w twoim domenie. Lock-in.
Im dluzej uzywasz, tym mniej placisz. Cache uczy sie z odpowiedzi GPT-4/Claude — za darmo buduje baze wiedzy twojego produktu.

Dwie linie kodu

# Przed (placisz za kazde pytanie):
from openai import OpenAI
client = OpenAI()

# Po (powtorzenia za darmo):
from cacheback import CachedOpenAI
client = CachedOpenAI()

# Reszta kodu sie NIE zmienia.
# Cache dziala lokalnie. Zero danych na zewnatrz.
response = client.chat.completions.create(
  model="gpt-4",
  messages=[{"role": "user", "content": "Co to fotosynteza?"}]
)

Gotowy obnizyzc koszty AI?

Jeden pip install. Dwie linie kodu. 70% oszczednosci.

pip install cacheback-ai