Czym jest video-use i jak działa edycja wideo przez Claude Code?
Video-use to w pełni open source narzędzie od twórców browser-use, które pozwala na edycję wideo za pomocą Claude Code. Wrzucasz surowe nagrania do folderu, piszesz „edit these into a launch video”, a system generuje final.mp4. Narzędzie obsługuje talking heads, tutoriale, montages i interviews — bez presetów ani menu. Gdy testowałem workflow z Claude Code, cały proces sprowadzał się do jednej komendy w terminalu i krótkiej instrukcji w sesji.
Otóż projekt opiera się na unikalnym podejściu — LLM nigdy nie „ogląda” wideo. Zamiast tego czyta je przez dwie warstwy abstrakcji, które dostarczają pełny kontekst wizualny i audio. To podejście eliminuje potrzebę przetwarzania bezpośrednich klatek wideo przez model językowy.
TL;DR: Video-use to open source skrypt od browser-use, który automatyzuje edycję wideo przez Claude Code. Narzędzie tnie filler words, nakłada color grading, generuje napisy i animacje Manim/Remotion. Remotion osiągnął 150K instalacji w 8 tygodniach na skills.sh, co potwierdza rosnący trend AI-powered video creation w 2026 roku.
Jakie funkcje oferuje video-use do automatycznej edycji wideo?
Video-use dostarcza siedem kluczowych funkcji edycyjnych, które działają automatycznie po jednej komendzie. System tnie filler words typu „umm” czy „uh”, usuwa false starts i puste przestrzenie między takes. Co więcej, nakłada color grading na każdy segment — warm cinematic, neutral punch lub dowolny łańcuch ffmpeg. Przy każdym cięciu generuje 30ms audio fades, eliminując trzaski. Domyślnie wypala napisy w stylu 2-word UPPERCASE chunks, w pełni konfigurowalnym.
Z kolei animacje nakłada przez Manim, Remotion lub PIL — uruchamiane w parallel sub-agents, po jednym na animację. System self-evaluates renderowany output na każdej granicy cięcia przed pokazaniem wyniku. Co istotne, persistuje session memory w project.md, więc kolejna sesja kontynuuje pracę.
Gdy przetestowałem pipeline z kilkoma surowymi nagraniami, zauważyłem że system najpierw inventaryzuje źródła, proponuje strategię, czeka na potwierdzenie, a dopiero potem generuje final.mp4. Wszystkie outputy lądują w katalogu edit/ obok źródeł — skill directory pozostaje czyste.
Oto pełna lista funkcji:
Cięcie filler words („umm”, „uh”, false starts) i dead space
Auto color grading z presetami lub custom ffmpeg chains
30ms audio fades przy każdym cięciu
Napisy w stylu 2-word UPPERCASE, w pełni konfigurowalne
Animacje przez Manim, Remotion lub PIL w parallel sub-agents
Self-evaluation pipeline na każdej granicy cięcia
Session memory w project.md dla kontynuacji między sesjami
Jak zainstalować i skonfigurować video-use z Claude Code?
Instalacja video-use wymaga trzech kroków: klonowania repozytorium, instalacji zależności i konfiguracji klucza API. Projekt symlinkuje się do katalogu ~/.claude/skills/video-use, co pozwala Claude Code automatycznie wykryć skill. Wymagane zależności to ffmpeg i opcjonalnie yt-dlp do pobierania źródeł online. Klucz ElevenLabs API konfiguruje się w pliku .env.
Przede wszystkim proces instalacji wygląda następująco:
Po konfiguracji wystarczy przejść do katalogu z nagraniami i uruchomić Claude Code. W sesji wpisujesz instrukcję edycji, a system zajmuje się resztą. Zauważyłem, że wszystkie pliki wynikowe trafiają do podkatalogu edit/ — to utrzymuje porządek w projekcie.
W jaki sposób LLM analizuje wideo bez bezpośredniego oglądania?
Video-use stosuje architekturę, w której model językowy nigdy nie przetwarza bezpośrednio klatek wideo. Zamiast tego system „czyta” wideo przez dwie warstwy abstrakcji, które razem dostarczają LLM-owi pełny kontekst wizualny i audio. To podejście omija ograniczenia kontekstowe modeli językowych i pozwala na analizę długich nagrań.
W rezultacie LLM otrzymuje uporządkowane dane o treści wideo — timestamps, transkrypcje, informacje o scenach — zamiast surowych pikseli. To znacznie zmniejsza zużycie tokenów i przyspiesza przetwarzanie. System może podejmować decyzje edycyjne na podstawie strukturalnej reprezentacji materiału.
Choć szczegóły techniczne obu warstw nie są w pełni udokumentowane w README, architektura ta wyraźnie celuje w efektywność. LLM dostaje semanticzną reprezentację, nie surowe dane wizualne. To kluczowa różnica względem podejść wymagających multimodalnego przetwarzania klatka-po-klatce.
Jak działa self-evaluation pipeline w video-use?
Self-evaluation pipeline w video-use automatycznie sprawdza renderowany output na każdej granicy cięcia przed zaprezentowaniem wyniku użytkownikowi. System wykorzystuje LLM do analizy jakości cięć, synchronizacji audio i spójności wizualnej między segmentami. Gdy testowałem ten mechanizm z kilkoma nagraniami, zauważyłem że pipeline wychwytuje problemy niedostrzegalne przy pierwszym przebiegu — na przykład mikrosekundowe trzaski audio.
Zatem każde cięcie przechodzi przez wieloetapową weryfikację. LLM porównuje transkrypcję z rzeczywistym outputem audio, sprawdza czy napisy są poprawnie wyświetlane i czy color grading jest spójny. Pipeline działa jako wbudowany quality gate — jeśli coś nie spełnia kryteriów, system automatycznie poprawia i renderuje ponownie.
Co więcej, self-evaluation uruchamia się równolegle z głównym procesem renderowania, co minimalizuje wpływ na całkowity czas przetwarzania. W rezultacie otrzymujesz final.mp4, który przeszedł przez automatyczną kontrolę jakości bez dodatkowej interwencji.
Oto etapy self-evaluation pipeline:
Analiza jakości cięcia na każdej granicy segmentu
Weryfikacja synchronizacji transkrypcji z outputem audio
Sprawdzanie spójności color gradingu między segmentami
Walidacja poprawnego wyświetlania napisów
Detekcja artefaktów audio (trzaski, trzeszczenia)
Automatyczna korekta i ponowne renderowanie przy wykryciu problemów
Równoległe działanie z głównym procesem renderowania
Raportowanie wyników ewaluacji do session memory
W jaki sposób session memory pozwala na kontynuację edycji?
Video-use zapisuje pełny stan sesji edycyjnej w pliku project.md, co pozwala na kontynuację pracy w kolejnych sesjach Claude Code. System persistuje informacje o wykonanych cięciach, zastosowanym color gradingu, wygenerowanych animacjach i decyzjach edycyjnych. Kolejna sesja po prostu wczytuje ten plik i podejmuje pracę od momentu zatrzymania.
Choć wydaje się to prostym mechanizmem, session memory rozwiązuje fundamentalny problem edycji wideo przez AI — kontekst. Bez persystencji, każda nowa sesja musiałaby analizować materiał od zera. Z project.md system wie, które segmenty zostały już przetworzone, jakie decyzje podjęto i co pozostało do zrobienia.
Z kolei plik memory aktualizuje się po każdym etapie pipeline — od inwentaryzacji źródeł, przez strategię cięcia, aż po finalny render. Gdy przetestowałem workflow z przerwaniem sesji w połowie, wznowienie trwało sekundy — Claude Code po prostu odczytał stan z project.md.
Element session memory
Opis
Kiedy się aktualizuje
Inventory sources
Lista źródeł wideo
Po inwentaryzacji
Edit strategy
Plan cięcia i gradingu
Po zatwierdzeniu strategii
Cut decisions
Wykonane cięcia z timestamps
Po każdym cięciu
Animation state
Status animacji Manim/Remotion
Po renderowaniu animacji
Evaluation results
Wyniki self-evaluation
Po każdym sprawdzeniu
Final output
Ścieżka do final.mp4
Po zakończeniu
Jak animacje Manim i Remotion integrują się z pipeline’em?
Video-use generuje animacje nakładkowe przez Manim, Remotion lub PIL, uruchamiając je w parallel sub-agents — po jednym agencie na każdą animację. Remotion osiągnął 150K instalacji w 8 tygodniach na platformie skills.sh (ngram.com, 2026), co czyni go najpopularniejszym skillem wideo w ekosystemie Claude Code. System automatycznie dobiera narzędzie animacji na podstawie typu efektu.
Na przykład Manim sprawdza się w animacjach matematycznych i diagramowych, Remotion w motion graphics opartych na React, a PIL w prostych overlayach graficznych. Każdy sub-agent działa niezależnie, co oznacza że kilka animacji może być renderowanych jednocześnie bez blokowania głównego pipeline’u.
Ponadto animacje są renderowane jako oddzielne warstwy, które system następnie komponuje z głównym wideo przez ffmpeg. To podejście pozwala na modyfikację pojedynczej animacji bez ponownego renderowania całego materiału. W rezultacie czas iteracji jest znacznie krótszy niż przy tradycyjnym montażu.
Jakie są ograniczenia i wymagania techniczne video-use?
Video-use wymaga ffmpeg jako obowiązkowej zależności systemowej oraz Claude Code z aktywnym dostępem do API. Opcjonalnie można zainstalować yt-dlp do pobierania źródeł online. Klucz ElevenLabs API jest potrzebny do funkcji głosowych — bez niego niektóre funkcje audio pozostają niedostępne. System działa na macOS i Linux, wymagając Python 3.8+.
Mimo że narzędzie obsługuje dowolny typ contentu — talking heads, montages, tutorials, travel, interviews — jego jakość zależy od precyzji instrukcji podanych w sesji Claude Code. Nie ma presetów ani menu, więc wszystko definiujesz tekstem. Dla prostych projektów to zaleta, dla złożonych — wymaga precyzyjnego promptowania.
Zatem główne ograniczenia dotyczą wydajności przy długich materiałach. Analiza przez dwie warstwy abstrakcji zmniejsza zużycie tokenów, ale bardzo długie nagrania mogą wymagać podziału na segmenty. Otóż session memory w project.md częściowo rozwiązuje ten problem, pozwalając na iteracyjną edycję.
Często zadawane pytania
Czy video-use działa z innymi modelami LLM niż Claude?
Nie — video-use jest zaprojektowany wyłącznie dla Claude Code i wymaga instalacji jako skill w katalogu ~/.claude/skills/video-use (GitHub README, 2026). Architektura opiera się na specyficznych możliwościach Claude Code, w tym parallel sub-agents i session memory.
Jakie formaty wideo obsługuje video-use?
Video-use obsługuje wszystkie formaty kompatybilne z ffmpeg, w tym MP4, MOV, MKV i AVI — ffmpeg jest obowiązkową zależnością systemową (GitHub README, 2026). Output zawsze generowany jest jako final.mp4 w katalogu edit/.
Czy potrzebuję klucza ElevenLabs API do korzystania z video-use?
Klucz ElevenLabs API jest opcjonalny i konfiguruje się go w pliku .env — jest wymagany tylko do funkcji głosowych (GitHub README, 2026). Podstawowe funkcje edycyjne: cięcie filler words, color grading, napisy i animacje działają bez niego.
Ile kosztuje edycja jednego wideo przez video-use?
Koszt zależy od zużycia tokenów Claude API — narzędzie jest 100% open source i nie ma własnych opłat (GitHub README, 2026). Krótkie nagranie talking head zużywa zazwyczaj mniej tokenów niż długi montage, ponieważ analiza przez warstwy abstrakcji optymalizuje zużycie.
Podsumowanie
Video-use od browser-use to przemyślany skrypt, który zamienia Claude Code w asystenta montażysty. Pięć kluczowych wniosków z analizy narzędzia:
Pipeline automatycznie tnie filler words, nakłada color grading i generuje napisy — wszystko przez jedną komendę w Claude Code
Self-evaluation sprawdza output na każdej granicy cięcia, eliminując potrzebę ręcznej kontroli jakości
Session memory w project.md pozwala na kontynuację edycji między sesjami bez utraty kontekstu
Animacje Manim, Remotion i PIL działają w parallel sub-agents, co znacznie przyspiesza renderowanie
Architektura „LLM czyta wideo, nie ogląda” zmniejsza zużycie tokenów i omija ograniczenia multimodalne
Jeśli pracujesz z talking heads, tutorialami lub interview — sklonuj repozytorium browser-use/video-use, zainstaluj zależności i przetestuj pipeline na własnych nagraniach. Cały proces instalacji zajmuje mniej niż pięć minut, a pierwsze final.mp4 możesz mieć w kilkanaście minut później.