v0.2.0 — teraz z syntezą

Twoi użytkownicy zadają te same pytania. Ty płacisz za każde.

Zbudowałeś aplikację AI. Działa. Ale rachunek za OpenAI rośnie, bo 70% zapytań to pytania, na które już odpowiedziałeś. A gdyby można było to zatrzymać w trzech liniach kodu?

$ pip install cacheback-ai

Apache 2.0 · Python 3.10+ · PyPI

from cacheback.openai import CachedOpenAI

client = CachedOpenAI()  # zamień jedno słowo. to tyle.

resp = client.chat.completions.create(
    model="gpt-4o",
    messages=[{"role": "user", "content": "Czym jest Python?"}]
)
# Poniedziałek: “Czym jest Python?”  → OpenAI API  ($0.01, 900ms)
# Wtorek: “Wytłumacz Python”         → cache hit   ($0.00, 4ms)
      

Zapytanie

Embedding

Dopasowanie

Odpowiedź

Problem

Bot supportowy dostaje 10 000 pytań dziennie.
6 000 z nich już padło wcześniej.

Nie słowo w słowo — nikt nie pisze dokładnie tego samego. Ale “Jak zresetować hasło?” i “Zapomniałem hasła, pomocy” to to samo pytanie. Płacisz za oba. Codziennie. Za każdego użytkownika.

Jak jest teraz

10 tys. zapytań/dzień $300/dzień

Czas oczekiwania 800–2000ms

Presja na rate limity Wysoka

Miesięczny rachunek $9 000

Po dodaniu cacheback

Te same 10 tys. zapytań $90/dzień

Powtórzone zapytanie <5ms

Presja na rate limity Niska

Miesięczny rachunek $2 700

Jak to działa

Nie tylko zapamiętuje odpowiedzi. Tworzy nowe.

Większość cache'ów to głupie systemy: dokładne dopasowanie albo nic. cacheback rozumie znaczenie. A kiedy znajdzie podobne zapytania w pamięci, syntetyzuje świeżą, kontekstową odpowiedź.

DOKŁADNE TRAFIENIE

Identyczne pytanie?

“Czym jest Python?” zapytane dwa razy. To samo znaczenie, natychmiastowy zwrot. <5ms. $0. Gotowe.

→

SYNTEZA CEAG

Podobne pytanie?

“Wytłumacz Python dla początkujących” — nie identyczne, ale bliskie. CEAG syntetyzuje świeżą odpowiedź z wiedzy w cache. Szybko. Ułamek kosztu.

→

ZAPYTANIE UPSTREAM

Zupełnie nowe?

Nigdy wcześniej nie widziane. Wywołuje prawdziwe API, cachuje odpowiedź. Następnym razem, gdy ktoś zapyta coś podobnego — jest gotowe. Cache staje się mądrzejszy.

Co dostajesz

Gotowe na produkcję. Działa na Twojej maszynie. Zero zarządzania.

SQLite do przechowywania, ONNX do embeddingu. Bez Redisa, bez chmury, bez kluczy API dla samego cache. Jeśli coś się zepsuje — Twoja aplikacja dalej działa.

Rozumie znaczenie

“Jak anulować?” i “Gdzie jest przycisk anulowania?” to to samo. Wektorowe embeddingi, nie porównywanie stringów.

MiniLM-L6-v2 · ONNX

Syntetyzuje, nie powtarza

CEAG tworzy świeże odpowiedzi z wiedzy w cache. Unikalne, kontekstowe odpowiedzi — nie skopiowany tekst. Jakość: 0.942.

Cached Ensemble Augmented Generation

Jedno słowo do integracji

Zamień OpenAI() na CachedOpenAI(). To samo API, te same typy, ten sam streaming. Wrapper Anthropic też.

sync + async

Streaming po prostu działa

Cache hity są streamowane chunk po chunku, dokładnie jak z oryginalnego API. Twój frontend nie widzi różnicy.

buffer & replay

Nie zepsuje Twojej aplikacji

Dysk pełny? Uszkodzona baza? Brak modelu ONNX? Cache zawodzi cicho, aplikacja odpytuje API bezpośrednio. 14 scenariuszy awarii przetestowanych.

graceful degradation

Proxy bez zmian w kodzie

Nie chcesz zmieniać kodu? Uruchom cacheback-proxy, przekieruj base URL. Działa z każdym językiem.

API kompatybilne z OpenAI

Porównanie

cacheback vs alternatywy

Obiektywne porównanie z popularnymi narzędziami do cache'owania AI. Sprawdź sam — wszystkie projekty są open source.

Funkcja	cacheback	GPTCache	LiteLLM	Portkey
Instalacja	pip install, działa	wymaga Milvus/Redis	gateway, nie cache	SaaS, nie self-hosted
Embeddingi	lokalne ONNX, zero-config	wymaga konfiguracji	brak	brak
Integracja	CachedOpenAI() drop-in	własne API	proxy pass-through	proxy pass-through
Synteza CEAG	tak — świeże odpowiedzi	tylko verbatim	brak cache	tylko verbatim
Działa offline	pełne wsparcie edge	wymaga infra	wymaga cloud	wymaga cloud
Multimodal	tekst + obraz + głos	tylko tekst	brak	brak
Obsługa awarii	14 scenariuszy, graceful	podstawowa	retry + fallback	retry + fallback
Koszt	darmowy, Apache 2.0	darmowy, MIT	darmowy + płatne	od $0 z limitami
Zależności	numpy + hnswlib + onnx	Milvus/Redis/Mongo	Redis opcjonalny	SaaS lock-in

Porównanie na podstawie publicznej dokumentacji, stan na marzec 2026. Wszystkie wymienione projekty są open source lub mają darmowy tier.

Zastosowania

cacheback nie jest do wszystkiego. Oto dokładnie gdzie działa.

Prosty cache działa tam, gdzie pytania się powtarzają. Synteza CEAG idzie dalej — wykorzystuje kontekst rozmowy, żeby tworzyć świeże odpowiedzi nawet dla spersonalizowanych zapytań. Wolimy powiedzieć szczerze teraz niż po instalacji.

Gdzie cacheback oszczędza pieniądze

Boty supportowe

70% zgłoszeń to warianty 20 tematów

FAQ i bazy wiedzy

Te same pytania zadawane przez tysiące użytkowników

Pipeline'y tłumaczeń

Te same frazy i zdania powtarzają się ciągle

API klasyfikacji

Deterministyczne — to samo wejście, ta sama etykieta

Q&A o kodzie (ogólne)

“Jak zrobić X w Pythonie” — model Stack Overflow

Spersonalizowane chatboty CEAG

CEAG uwzględnia kontekst rozmowy przy syntezie. Świeże odpowiedzi dopasowane do każdego użytkownika — nie dosłowne kopie z cache

Content i copywriting CEAG

Posty blogowe, opisy produktów, teksty marketingowe. CEAG syntetyzuje z podobnych zcachowanych treści, dopasowanych do Twojego briefu

Asystenci głosowi WKRÓTCE

Transkrypcja Whisper → semantyczne dopasowanie

Rozpoznawanie obrazów WKRÓTCE

Embeddingi CLIP — podobne zdjęcia, visual Q&A

Zapytania przestrzenne i 3D RESEARCH

CLIP+3D — “pokaż mi meble jak te”

Gdzie nie pomoże

Dane w czasie rzeczywistym

Kursy giełdowe, pogoda, wyniki na żywo zmieniają się co sekundę. Nawet CEAG nie odświeży nieaktualnych faktów — syntetyzuje tekst, nie dane. Użyj cachowania opartego na TTL.

Generowanie obrazów i wideo

DALL-E, Midjourney, Sora generują wizualny output. Nie da się syntetyzować nowych mediów z zcachowanych fragmentów — zupełnie inna modalność. Tip: cachowanie promptów do refinementu działa.

Unikalna analiza dokumentów

“Przeanalizuj MÓJ kontrakt”, “Sprawdź MÓJ kod.” Każdy input jest unikalny dla użytkownika, brak powtarzających się wzorców w Twojej bazie.

Integracja

Spodziewałeś się więcej kroków. Nie ma ich.

Wybierz SDK. Zmień jeden import. Wdrożenie. Twoja aplikacja jest teraz 70% tańsza w obsłudze.

from cacheback.openai import CachedOpenAI

client = CachedOpenAI()

# Dokładnie to samo API co openai.OpenAI
resp = client.chat.completions.create(
    model="gpt-4o",
    messages=[{"role": "user", "content": "Wytłumacz caching"}]
)

print(resp.choices[0].message.content)
print(resp.cacheback_hit)  # True jeśli z cache
      

from cacheback.anthropic import CachedAnthropic

client = CachedAnthropic()

msg = client.messages.create(
    model="claude-sonnet-4-20250514",
    max_tokens=1024,
    messages=[{"role": "user", "content": "Wytłumacz caching"}]
)

print(msg.content[0].text)
print(msg.cacheback_hit)  # True jeśli z cache
      

# Terminal: uruchom proxy
$ pip install cacheback-ai[proxy]
$ cacheback-proxy # działa na :8990

# Twój kod: zmień tylko base_url
import openai

client = openai.OpenAI(
    base_url="http://localhost:8990/v1"
)

# Działa z każdym językiem. curl, Node.js, Go...
# Zero zmian w kodzie.
      

Cennik

Nie ma haczyka.

Pełne SDK jest darmowe, open source, Apache 2.0. Użyj w produkcji, forkuj, sprzedawaj produkty na nim zbudowane. Zarabiamy, gdy chcesz mieć nas pod ręką.

Open Source

Wszystko. Na zawsze. Bez triala, bez limitu.

Semantyczny cache (SQLite + hnswlib)
Wrappery OpenAI + Anthropic
Streaming, tryb proxy, CEAG
Embeddery: tekst, obraz, głos, audio
Użyj komercyjnie. Bez haczyka.

pip install

Starter

$49/mies.

Wystawiasz na produkcję. My pilnujemy.

Wszystko z Open Source
Licencja komercyjna
Support email (48h SLA)
Priorytetowe poprawki błędów

Zacznij

Pro

$99/mies.

Compliance, izolacja, pomoc architektoniczna.

Wszystko ze Startera
Filtr PII (wkrótce)
Izolacja namespace'ów
Kanał support na Slacku
Konsultacja architektoniczna

Skontaktuj się