Nie zwykly cache — inteligentna synteza z kontekstem rozmowy. Uczy sie z kazdym pytaniem. 10x tansze AI.
To samo pytanie, trzy sposoby. Zwykly cache (exact match) tego nie lapie. Semantic cache — tak.
Maly model (90MB, dziala lokalnie) zamienia kazde zdanie na liste 384 liczb. Zdania o podobnym sensie daja podobne liczby. Zdania o innym sensie daja inne liczby.
Zwykly cache zwraca dokladnie to co zapisal. CEAG bierze 5 najblizszych odpowiedzi z cache, dodaje kontekst rozmowy, i maly model syntetyzuje swieza, spersonalizowana odpowiedz. Potem ensemble weryfikuje jakosc.
CEAG = 15x tansze niz Full LLM, 10x wolniejsze niz Simple Cache, ale swieze i spersonalizowane.
Ten sam mechanizm dziala dla obrazow, glosu i przestrzeni fizycznej. Zmienia sie tylko encoder — reszta infrastruktury identyczna.
Cache zaczyna pusty. Kazda odpowiedz z GPT-4/Claude zapisuje sie automatycznie. Im wiecej pytan, tym wyzszy hit rate — cache staje sie madrzejszy z czasem.
Jeden pip install. Dwie linie kodu. 70% oszczednosci.
pip install cacheback-ai