v0.2.0 — teraz z syntezą

Twoi użytkownicy zadają te same pytania. Ty płacisz za każde.

Zbudowałeś aplikację AI. Działa. Ale rachunek za OpenAI rośnie, bo 70% zapytań to pytania, na które już odpowiedziałeś. A gdyby można było to zatrzymać w trzech liniach kodu?

$ pip install cacheback-ai

Apache 2.0 · Python 3.10+ · PyPI

from cacheback.openai import CachedOpenAI client = CachedOpenAI() # zamień jedno słowo. to tyle. resp = client.chat.completions.create( model="gpt-4o", messages=[{"role": "user", "content": "Czym jest Python?"}] ) # Poniedziałek: “Czym jest Python?” → OpenAI API ($0.01, 900ms) # Wtorek: “Wytłumacz Python” → cache hit ($0.00, 4ms)
Zapytanie
Embedding
Dopasowanie
Odpowiedź
70%
Mniejsze koszty API
<5ms
Odpowiedź z cache
0.942
Jakość (CQS)
167
Testów przechodzi

Bot supportowy dostaje 10 000 pytań dziennie.
6 000 z nich już padło wcześniej.

Nie słowo w słowo — nikt nie pisze dokładnie tego samego. Ale “Jak zresetować hasło?” i “Zapomniałem hasła, pomocy” to to samo pytanie. Płacisz za oba. Codziennie. Za każdego użytkownika.

Jak jest teraz

10 tys. zapytań/dzień $300/dzień
Czas oczekiwania 800–2000ms
Presja na rate limity Wysoka
Miesięczny rachunek $9 000

Po dodaniu cacheback

Te same 10 tys. zapytań $90/dzień
Powtórzone zapytanie <5ms
Presja na rate limity Niska
Miesięczny rachunek $2 700

Nie tylko zapamiętuje odpowiedzi. Tworzy nowe.

Większość cache'ów to głupie systemy: dokładne dopasowanie albo nic. cacheback rozumie znaczenie. A kiedy znajdzie podobne zapytania w pamięci, syntetyzuje świeżą, kontekstową odpowiedź.

DOKŁADNE TRAFIENIE

Identyczne pytanie?

“Czym jest Python?” zapytane dwa razy. To samo znaczenie, natychmiastowy zwrot. <5ms. $0. Gotowe.

SYNTEZA CEAG

Podobne pytanie?

“Wytłumacz Python dla początkujących” — nie identyczne, ale bliskie. CEAG syntetyzuje świeżą odpowiedź z wiedzy w cache. Szybko. Ułamek kosztu.

ZAPYTANIE UPSTREAM

Zupełnie nowe?

Nigdy wcześniej nie widziane. Wywołuje prawdziwe API, cachuje odpowiedź. Następnym razem, gdy ktoś zapyta coś podobnego — jest gotowe. Cache staje się mądrzejszy.

Q Zapytanie [0.3, 0.7...] Embedding cos 0.94 Podobieństwo R Odpowiedź

Gotowe na produkcję. Działa na Twojej maszynie. Zero zarządzania.

SQLite do przechowywania, ONNX do embeddingu. Bez Redisa, bez chmury, bez kluczy API dla samego cache. Jeśli coś się zepsuje — Twoja aplikacja dalej działa.

Rozumie znaczenie

“Jak anulować?” i “Gdzie jest przycisk anulowania?” to to samo. Wektorowe embeddingi, nie porównywanie stringów.

MiniLM-L6-v2 · ONNX

Syntetyzuje, nie powtarza

CEAG tworzy świeże odpowiedzi z wiedzy w cache. Unikalne, kontekstowe odpowiedzi — nie skopiowany tekst. Jakość: 0.942.

Cached Ensemble Augmented Generation

Jedno słowo do integracji

Zamień OpenAI() na CachedOpenAI(). To samo API, te same typy, ten sam streaming. Wrapper Anthropic też.

sync + async

Streaming po prostu działa

Cache hity są streamowane chunk po chunku, dokładnie jak z oryginalnego API. Twój frontend nie widzi różnicy.

buffer & replay

Nie zepsuje Twojej aplikacji

Dysk pełny? Uszkodzona baza? Brak modelu ONNX? Cache zawodzi cicho, aplikacja odpytuje API bezpośrednio. 14 scenariuszy awarii przetestowanych.

graceful degradation

Proxy bez zmian w kodzie

Nie chcesz zmieniać kodu? Uruchom cacheback-proxy, przekieruj base URL. Działa z każdym językiem.

API kompatybilne z OpenAI

cacheback vs alternatywy

Obiektywne porównanie z popularnymi narzędziami do cache'owania AI. Sprawdź sam — wszystkie projekty są open source.

Funkcja cacheback GPTCache LiteLLM Portkey
Instalacja pip install, działa wymaga Milvus/Redis gateway, nie cache SaaS, nie self-hosted
Embeddingi lokalne ONNX, zero-config wymaga konfiguracji brak brak
Integracja CachedOpenAI() drop-in własne API proxy pass-through proxy pass-through
Synteza CEAG tak — świeże odpowiedzi tylko verbatim brak cache tylko verbatim
Działa offline pełne wsparcie edge wymaga infra wymaga cloud wymaga cloud
Multimodal tekst + obraz + głos tylko tekst brak brak
Obsługa awarii 14 scenariuszy, graceful podstawowa retry + fallback retry + fallback
Koszt darmowy, Apache 2.0 darmowy, MIT darmowy + płatne od $0 z limitami
Zależności numpy + hnswlib + onnx Milvus/Redis/Mongo Redis opcjonalny SaaS lock-in

Porównanie na podstawie publicznej dokumentacji, stan na marzec 2026. Wszystkie wymienione projekty są open source lub mają darmowy tier.

cacheback nie jest do wszystkiego. Oto dokładnie gdzie działa.

Prosty cache działa tam, gdzie pytania się powtarzają. Synteza CEAG idzie dalej — wykorzystuje kontekst rozmowy, żeby tworzyć świeże odpowiedzi nawet dla spersonalizowanych zapytań. Wolimy powiedzieć szczerze teraz niż po instalacji.

Gdzie cacheback oszczędza pieniądze

Boty supportowe
70% zgłoszeń to warianty 20 tematów
FAQ i bazy wiedzy
Te same pytania zadawane przez tysiące użytkowników
Pipeline'y tłumaczeń
Te same frazy i zdania powtarzają się ciągle
API klasyfikacji
Deterministyczne — to samo wejście, ta sama etykieta
Q&A o kodzie (ogólne)
“Jak zrobić X w Pythonie” — model Stack Overflow
Spersonalizowane chatboty CEAG
CEAG uwzględnia kontekst rozmowy przy syntezie. Świeże odpowiedzi dopasowane do każdego użytkownika — nie dosłowne kopie z cache
Content i copywriting CEAG
Posty blogowe, opisy produktów, teksty marketingowe. CEAG syntetyzuje z podobnych zcachowanych treści, dopasowanych do Twojego briefu
Asystenci głosowi WKRÓTCE
Transkrypcja Whisper → semantyczne dopasowanie
Rozpoznawanie obrazów WKRÓTCE
Embeddingi CLIP — podobne zdjęcia, visual Q&A
Zapytania przestrzenne i 3D RESEARCH
CLIP+3D — “pokaż mi meble jak te”

Gdzie nie pomoże

Dane w czasie rzeczywistym
Kursy giełdowe, pogoda, wyniki na żywo zmieniają się co sekundę. Nawet CEAG nie odświeży nieaktualnych faktów — syntetyzuje tekst, nie dane. Użyj cachowania opartego na TTL.
Generowanie obrazów i wideo
DALL-E, Midjourney, Sora generują wizualny output. Nie da się syntetyzować nowych mediów z zcachowanych fragmentów — zupełnie inna modalność. Tip: cachowanie promptów do refinementu działa.
Unikalna analiza dokumentów
“Przeanalizuj MÓJ kontrakt”, “Sprawdź MÓJ kod.” Każdy input jest unikalny dla użytkownika, brak powtarzających się wzorców w Twojej bazie.

Spodziewałeś się więcej kroków. Nie ma ich.

Wybierz SDK. Zmień jeden import. Wdrożenie. Twoja aplikacja jest teraz 70% tańsza w obsłudze.

from cacheback.openai import CachedOpenAI client = CachedOpenAI() # Dokładnie to samo API co openai.OpenAI resp = client.chat.completions.create( model="gpt-4o", messages=[{"role": "user", "content": "Wytłumacz caching"}] ) print(resp.choices[0].message.content) print(resp.cacheback_hit) # True jeśli z cache
from cacheback.anthropic import CachedAnthropic client = CachedAnthropic() msg = client.messages.create( model="claude-sonnet-4-20250514", max_tokens=1024, messages=[{"role": "user", "content": "Wytłumacz caching"}] ) print(msg.content[0].text) print(msg.cacheback_hit) # True jeśli z cache
# Terminal: uruchom proxy $ pip install cacheback-ai[proxy] $ cacheback-proxy # działa na :8990 # Twój kod: zmień tylko base_url import openai client = openai.OpenAI( base_url="http://localhost:8990/v1" ) # Działa z każdym językiem. curl, Node.js, Go... # Zero zmian w kodzie.

Nie ma haczyka.

Pełne SDK jest darmowe, open source, Apache 2.0. Użyj w produkcji, forkuj, sprzedawaj produkty na nim zbudowane. Zarabiamy, gdy chcesz mieć nas pod ręką.

Open Source
$0

Wszystko. Na zawsze. Bez triala, bez limitu.

  • Semantyczny cache (SQLite + hnswlib)
  • Wrappery OpenAI + Anthropic
  • Streaming, tryb proxy, CEAG
  • Embeddery: tekst, obraz, głos, audio
  • Użyj komercyjnie. Bez haczyka.
pip install
Pro
$99/mies.

Compliance, izolacja, pomoc architektoniczna.

  • Wszystko ze Startera
  • Filtr PII (wkrótce)
  • Izolacja namespace'ów
  • Kanał support na Slacku
  • Konsultacja architektoniczna
Skontaktuj się

Twoje następne zapytanie do API może być darmowe

Dwie linie kodu. Oszczędności zaczynają się od pierwszego duplikatu.