Zbudowałeś aplikację AI. Działa. Ale rachunek za OpenAI rośnie, bo 70% zapytań to pytania, na które już odpowiedziałeś. A gdyby można było to zatrzymać w trzech liniach kodu?
Apache 2.0 · Python 3.10+ · PyPI
Nie słowo w słowo — nikt nie pisze dokładnie tego samego. Ale “Jak zresetować hasło?” i “Zapomniałem hasła, pomocy” to to samo pytanie. Płacisz za oba. Codziennie. Za każdego użytkownika.
Większość cache'ów to głupie systemy: dokładne dopasowanie albo nic. cacheback rozumie znaczenie. A kiedy znajdzie podobne zapytania w pamięci, syntetyzuje świeżą, kontekstową odpowiedź.
“Czym jest Python?” zapytane dwa razy. To samo znaczenie, natychmiastowy zwrot. <5ms. $0. Gotowe.
→“Wytłumacz Python dla początkujących” — nie identyczne, ale bliskie. CEAG syntetyzuje świeżą odpowiedź z wiedzy w cache. Szybko. Ułamek kosztu.
→Nigdy wcześniej nie widziane. Wywołuje prawdziwe API, cachuje odpowiedź. Następnym razem, gdy ktoś zapyta coś podobnego — jest gotowe. Cache staje się mądrzejszy.
SQLite do przechowywania, ONNX do embeddingu. Bez Redisa, bez chmury, bez kluczy API dla samego cache. Jeśli coś się zepsuje — Twoja aplikacja dalej działa.
“Jak anulować?” i “Gdzie jest przycisk anulowania?” to to samo. Wektorowe embeddingi, nie porównywanie stringów.
MiniLM-L6-v2 · ONNXCEAG tworzy świeże odpowiedzi z wiedzy w cache. Unikalne, kontekstowe odpowiedzi — nie skopiowany tekst. Jakość: 0.942.
Cached Ensemble Augmented GenerationZamień OpenAI() na CachedOpenAI(). To samo API, te same typy, ten sam streaming. Wrapper Anthropic też.
Cache hity są streamowane chunk po chunku, dokładnie jak z oryginalnego API. Twój frontend nie widzi różnicy.
buffer & replayDysk pełny? Uszkodzona baza? Brak modelu ONNX? Cache zawodzi cicho, aplikacja odpytuje API bezpośrednio. 14 scenariuszy awarii przetestowanych.
graceful degradationNie chcesz zmieniać kodu? Uruchom cacheback-proxy, przekieruj base URL. Działa z każdym językiem.
Obiektywne porównanie z popularnymi narzędziami do cache'owania AI. Sprawdź sam — wszystkie projekty są open source.
| Funkcja | cacheback | GPTCache | LiteLLM | Portkey |
|---|---|---|---|---|
| Instalacja | pip install, działa | wymaga Milvus/Redis | gateway, nie cache | SaaS, nie self-hosted |
| Embeddingi | lokalne ONNX, zero-config | wymaga konfiguracji | brak | brak |
| Integracja | CachedOpenAI() drop-in | własne API | proxy pass-through | proxy pass-through |
| Synteza CEAG | tak — świeże odpowiedzi | tylko verbatim | brak cache | tylko verbatim |
| Działa offline | pełne wsparcie edge | wymaga infra | wymaga cloud | wymaga cloud |
| Multimodal | tekst + obraz + głos | tylko tekst | brak | brak |
| Obsługa awarii | 14 scenariuszy, graceful | podstawowa | retry + fallback | retry + fallback |
| Koszt | darmowy, Apache 2.0 | darmowy, MIT | darmowy + płatne | od $0 z limitami |
| Zależności | numpy + hnswlib + onnx | Milvus/Redis/Mongo | Redis opcjonalny | SaaS lock-in |
Porównanie na podstawie publicznej dokumentacji, stan na marzec 2026. Wszystkie wymienione projekty są open source lub mają darmowy tier.
Prosty cache działa tam, gdzie pytania się powtarzają. Synteza CEAG idzie dalej — wykorzystuje kontekst rozmowy, żeby tworzyć świeże odpowiedzi nawet dla spersonalizowanych zapytań. Wolimy powiedzieć szczerze teraz niż po instalacji.
Wybierz SDK. Zmień jeden import. Wdrożenie. Twoja aplikacja jest teraz 70% tańsza w obsłudze.
Pełne SDK jest darmowe, open source, Apache 2.0. Użyj w produkcji, forkuj, sprzedawaj produkty na nim zbudowane. Zarabiamy, gdy chcesz mieć nas pod ręką.
Wszystko. Na zawsze. Bez triala, bez limitu.
Wystawiasz na produkcję. My pilnujemy.
Compliance, izolacja, pomoc architektoniczna.
Dwie linie kodu. Oszczędności zaczynają się od pierwszego duplikatu.