Wróć do strony głównej

27 marca 2026

Czym jest Promptfoo? Praktyczny przewodnik po testowaniu i ocenie promptów AI

Jak testować, oceniać i ulepszać prompty do modeli językowych z użyciem Promptfoo

Prompt EngineeringLLMTestingPromptfoo
Czym jest Promptfoo? Praktyczny przewodnik po testowaniu i ocenie promptów AI

Czym jest Promptfoo?

Promptfoo to open-source’owy framework do ewaluacji i testowania aplikacji LLM, najczęściej promptów, dzięki któremu możesz porównywać wyniki, wykrywać regresje i poprawiać jakość w sposób powtarzalny

Z Promptfoo możesz:

  • uruchamiać wiele wariantów promptu na tych samych danych wejściowych
  • porównywać odpowiedzi między modelami obok siebie
  • automatycznie oceniać odpowiedzi regułami deterministycznymi i rubrykami model-graded
  • przyspieszać ewaluację przez cache i współbieżność
  • używać narzędzia z CLI oraz w pipeline’ach CI/CD

To podejście działa jak testy jednostkowe dla promptów, ale asercje mogą być zarówno twarde, jak i wspierane przez LLM


Promptfoo overview


Dlaczego testowanie promptów ma znaczenie

Nawet drobna zmiana promptu albo modelu może mocno wpłynąć na wynik

Bez testowania:

  • regresje łatwo przechodzą niezauważone
  • zachowanie systemu staje się niespójne między promptami, wejściami i modelami
  • trudno obiektywnie ocenić jakość

Z Promptfoo:

  • eksperymenty są powtarzalne
  • jakość jest mierzalna
  • zmiany promptów wdrażasz bezpieczniej

Jak działa Promptfoo

Ewaluacje Promptfoo opierają się zwykle na trzech elementach: promptach, przypadkach testowych i asercjach lub metrykach

1. Prompty

Prompt A: Explain this like I'm five
Prompt B: Provide a concise technical explanation

2. Przypadki testowe

Input: "What is blockchain?"
Input: "Explain photosynthesis"

3. Asercje i metryki

Przykłady:

  • testy deterministyczne, np contains i equals
  • wagi i progi punktowe
  • ocena model-graded z użyciem llm-rubric

Prompt evaluation flow


Instalacja

Najszybciej wystartujesz przez gotowy przykład:

npx promptfoo@latest init --example getting-started

Możesz też zainstalować globalnie:

npm install -g promptfoo

Albo przez Homebrew:

brew install promptfoo

Większość providerów wymaga credentials. Dla OpenAI:

export OPENAI_API_KEY=sk-...

Podstawowa konfiguracja

Najczęściej używasz pliku promptfooconfig.yaml:

prompts:
  - "Explain {{topic}} in simple terms."
  - "Provide a concise technical explanation of {{topic}}."

providers:
  - openai:gpt-4.1-mini

tests:
  - vars:
      topic: "quantum computing"
    assert:
      - type: contains
        value: "quantum"
      - type: llm-rubric
        value: "Is the explanation accurate and appropriate for the requested style?"
        provider: openai:gpt-4.1-mini
        threshold: 0.7

  - vars:
      topic: "machine learning"
    assert:
      - type: llm-rubric
        value: "Does the answer avoid hallucinations and keep a clear structure?"
        provider: openai:gpt-4.1-mini

Testy możesz ładować też z YAML, JSON, JSONL, CSV, TypeScript, JavaScript oraz źródeł zewnętrznych jak Google Sheets


CLI results example


Podgląd wyników

Po ewaluacji uruchom interaktywny podgląd w przeglądarce:

npx promptfoo@latest view

Jeśli chcesz tryb prowadzony:

npx promptfoo@latest eval setup

W praktyce warto też:

  • walidować konfigurację przez promptfoo validate
  • traktować custom assertions i pluginy jak lokalny kod Node.js uruchamiany z Twoimi uprawnieniami

Prompt comparison


Promptfoo dashboard


Podsumowanie

Prompt engineering bez testowania to najczęściej zgadywanie

Promptfoo zamienia to w uporządkowany, powtarzalny i mierzalny proces