Siedzenie i przepisywanie nagrań audio to zajęcie, które mogłoby z powodzeniem kandydować do miana jednej z bardziej żmudnych czynności na świecie. Niezależnie, czy jesteś studentem nagrywającym wykłady, dziennikarzem, który musi zamienić wywiad w tekst, czy twórcą, który potrzebuje napisów do swojego nowego filmu – proces jest zawsze taki sam – włączasz nagranie, słuchasz fragmentu, zatrzymujesz, przepisujesz i powtarzasz tę czynność do granic cierpliwości.

Na szczęście, żyjemy w czasach, gdy na takie problemy mamy już gotowe rozwiązania. Jednym z nich, o którym dzisiaj opowiemy, jest Buzz – aplikacja, która zrobi to wszystko za Ciebie, a co najlepsze, może to robić całkowicie offline, na Twoim komputerze. Koniec z wysyłaniem prywatnych rozmów na nieznane serwery.

W dziedzinie technologii rozpoznawania mowy i głosu od lat panuje duży ruch, napędzany dynamicznym rozwojem sztucznej inteligencji. Globalny rynek w tym segmencie był wyceniany na ponad 20 miliardów dolarów w 2023 roku. Prognozy firmy analitycznej Grand View Research wskazują, że dzięki rosnącemu zapotrzebowaniu na rozwiązania usprawniające pracę z materiałami audio i wideo, a także wzrostowi popularności asystentów głosowych i biometrii, wartość ta ma wzrosnąć do ponad 53 miliardów dolarów do 2030 roku, notując skumulowany roczny wskaźnik wzrostu na poziomie blisko 15%.

Właśnie w tę niszę wpisuje się Buzz. Oferuje on coś, co jeszcze do niedawna wydawało się dostępne jedynie dla dużych korporacji – zaawansowaną transkrypcję i tłumaczenie mowy w czasie rzeczywistym, działające lokalnie na Twoim sprzęcie. Zamiast płacić za kolejne subskrypcje, dostajesz narzędzie, które szanuje Twoją prywatność i działa bez dostępu do internetu.

Instalacja – mniej klikania, więcej działania

Jedną z rzeczy, które potrafią skutecznie zniechęcić do wypróbowania nowego programu, jest skomplikowany proces instalacji. Twórcy Buzz najwyraźniej wzięli sobie tę uwagę do serca, ponieważ instalacja aplikacji w środowisku Ubuntu jest banalnie prosta.

Jeśli korzystasz z Ubuntu, prawdopodobnie znasz i cenisz sobie Centrum Oprogramowania (Software Center) za jego prostotę. Buzz jest dostępny za pośrednictwem Flathub, oznacza to, że aby go zainstalować, wystarczy kilka kliknięć.

  1. Otwórz Centrum Oprogramowania Ubuntu.
  2. W polu wyszukiwania wpisz “Buzz”.
  3. Kliknij przycisk “Zainstaluj” i poczekaj, aż proces dobiegnie końca.

Instalacja Buzz

Nie ma tu skomplikowanych komend w terminalu, żadnego ściągania podejrzanych paczek z nieznanych stron. Po kilku minutach ikonka aplikacji powinna pojawić się w menu programów, gotowa do pierwszego uruchomienia.

Pamiętaj tylko, że aby zainstalować Buzz musisz mieć około 4,5 GB wolnej przestrzeni oraz dodatkowo 1 GB na pobranie podstawowych modeli AI.

Pierwszy kontakt i kapryśny mikrofon

Po uruchomieniu Buzz przywita Cię minimalistyczny i czytelny interfejs. Główny ekran pozwala na importowanie plików audio/wideo lub rozpoczęcie nagrywania na żywo.

Zanim rozpoczniesz proces transkrypcji, istotne jest optymalne przygotowanie stanowiska. Szczególną uwagę musisz poświęcić prawidłowej konfiguracji mikrofonu.

Kliknij ikonkę nagrywania na żywo lub użyj skrótu CTRL+R (Live Recording). Zobaczysz tam opcje wyboru zadania (transkrypcja lub tłumaczenie), języka, jakości oraz, co najważniejsze, mikrofonu. W idealnym scenariuszu z listy rozwijanej wybierasz swój mikrofon i wszystko działa. Niestety, świat Linuksa bywa czasem… specyficzny.

Konfiguracja nagrywania

Może się zdarzyć, że Buzz nie wykryje Twojego mikrofonu lub nie będzie w stanie przechwycić z niego dźwięku, mimo że w innych aplikacjach działa on poprawnie. Co wtedy? Rozwiązanie jest proste, choć wymaga małej interwencji. Należy doinstalować dodatkowe narzędzie o nazwie “Sterowanie głośnością” (PulseAudio Volume Control, znane też jako pavucontrol), które jest dostępne, podobnie jak Buzz, przez Flathub.

Sterowanie głośnością - doinstalowanie w Ubuntu

  1. Ponownie otwórz Centrum Oprogramowania Ubuntu.
  2. Wyszukaj i zainstaluj “Sterowanie głośnością”.
  3. Uruchom “Sterowanie głośnością”.
  4. Teraz uruchom aplikację Buzz i przejdź do ekranu nagrywania na żywo.
  5. W oknie “Sterowania głośnością” przejdź do zakładki “Nagrywanie”. Powinieneś zobaczyć tam aplikację Buzz (lub jej proces). Upewnij się, że jako źródło wejścia dla niej jest ustawiony Twój faktyczny mikrofon.

Wybór mikrofonu w Linux Ubuntu

W większości przypadków przedstawiony trik rozwiązuje problemy z niedziałającym mikrofonem.

Sterowanie głośnością to zaawansowany mikser dźwięku, który daje pełną kontrolę nad tym, która aplikacja korzysta z którego urządzenia wejścia i wyjścia. Jest to jedno z tych narzędzi, które każdy użytkownik Linuksa powinien mieć w swoim arsenale.

Wybieranie mózgu operacji – pobieranie modeli AI

Podczas gdy Buzz zapewnia wygodny interfejs dostępu, to sednem działania i precyzji są leżące u jego podstaw modele sztucznej inteligencji, w tym flagowa rodzina Whisper stworzona przez OpenAI.

Zanim rozpoczniesz transkrypcję, musisz pobrać odpowiedni model. Buzz umożliwia zarządzanie nimi w prosty sposób z poziomu ustawień.

Instalacja modeli AI

Wejdź w menu Pomoc => Ustawienia => Models. Zobaczysz tam listę dostępnych modeli, zarówno oryginalnych od OpenAI (Whisper), jak i ich zoptymalizowanych wariantów, takich jak Whisper.cpp czy Faster Whisper. Na czym polega różnica?

  • Whisper – oryginalne modele od OpenAI. Bardzo dokładne, ale wymagające pod względem zasobów.
  • Whisper.cpp – port oryginalnych modeli napisany w C++. Jest znacznie lżejszy i szybszy, szczególnie na procesorach bez dedykowanej karty graficznej. Będzie to najlepszy wybór na początek.
  • Faster Whisper – kolejna optymalizacja, która, jak sama nazwa wskazuje, skupia się na szybkości, zwłaszcza na nowoczesnych kartach graficznych NVIDIA.

Modele różnią się też rozmiarem – tiny, base, small, medium, large. Zasada jest prosta – im większy model, tym większa dokładność, ale też większe zapotrzebowanie na moc obliczeniową i dłuższy czas przetwarzania. Dla języka angielskiego model base lub small daje świetne rezultaty. W przypadku języka polskiego, dla uzyskania wysokiej jakości, warto sięgnąć po model medium (na small też działa, ale do prostszego słownictwa).

Pobieranie nowego modelu AI

Kliknij przycisk pobierania przy wybranym modelu (np. Whisper.cpp z modelem medium) i poczekaj. Pliki zapiszą się w odpowiednim katalogu, a Ty będziesz gotów do działania.

Próba ognia – transkrypcja na żywo

Wszystko skonfigurowane? Czas na test. Teraz zobaczysz, jak Twoje słowa zamieniają się w tekst na ekranie w czasie rzeczywistym.

Wróć do ekranu nagrywania na żywo (lub CTRL+R), następnie:

  1. W polu “Task” wybierz “Transcribe”.
  2. Wybierz język, w którym będziesz mówić (np. Polish). Możesz też zostawić Detect Language (Wykryj język), ale ręczny wybór poprawia dokładność.
  3. W sekcji modelu wybierz ten, który właśnie pobrałeś.
  4. Wybierz swój mikrofon.
  5. Kliknij przycisk Record (Nagraj).

Zacznij mówić. Po kilku sekundach, na ekranie zobaczysz jak aplikacja niemal natychmiastowo rozumie i zapisuje to, co mówisz. Pamiętaj jednak, że wydajność w trybie na żywo jest mocno uzależniona od mocy Twojego komputera. Używanie mniejszych, zoptymalizowanych modeli, jak Whisper.cpp, jest zalecane dla płynnego działania. Po zakończeniu nagrywania, transkrypcja zostanie zapisana i będzie dostępna do edycji i eksportu.

Transkrypcja na żywo

Ujarzmianie treści z Internetu – transkrypcja webinaru na tekst

Jedną z najbardziej praktycznych funkcji Buzz jest możliwość transkrypcji dźwięku bezpośrednio z adresu URL. Pomyśl o tych wszystkich webinarach, wykładach online czy podcastach, z których chciałbyś zrobić notatki lub szybko wygenerować (dodać) polskie napisy. Buzz robi to w kilku prostych krokach.

Funkcja importu mediów akceptuje nie tylko lokalne pliki, ale i linki, na przykład z YouTube.

  1. Kliknij ikonę “+” na głównym ekranie lub wybierz File => Import URL.
  2. W oknie, które się pojawi, zamiast wybierać plik z dysku, wklej adres URL do materiału wideo.
  3. Następnie, tak jak przy nagrywaniu na żywo, wybierz zadanie. Tym razem może to być coś ciekawszego – wybierz “Translate to English”, jeśli chcesz uzyskać angielską wersję z polskiego webinaru, albo po prostu “Transcribe”, jeśli potrzebujesz tekstu w oryginalnym języku.
  4. Wybierz język źródłowy i model. Przy przetwarzaniu pliku nie musisz się aż tak martwić o wydajność w czasie rzeczywistym, więc możesz wybrać większy i dokładniejszy model, np. large.
  5. Kliknij Run (Rozpocznij) i pozwól aplikacji działać.

Transkrypcja bezpośrednio z adresu URL

Proces potrwa chwilę, w zależności od długości materiału i mocy Twojego komputera. Po zakończeniu otrzymasz gotową transkrypcję lub tłumaczenie, które możesz przejrzeć, edytować i wyeksportować do popularnych formatów napisów (SRT, VTT) lub jako zwykły tekst (TXT).

Eksport transkrypcji do pliku

Jest to użyteczna funkcja, która oszczędza mnóstwo czasu. Buzz obsługuje również zaawansowane tłumaczenia na inne języki niż angielski, ale wymaga konfiguracji zewnętrznego API, np. od OpenAI, co jest już tematem na osobny artykuł.

Szybkość ma znaczenie – GPU i API

Buzz działa na każdym współczesnym komputerze. Jednak, jeśli zależy Ci na szybkości, warto wiedzieć o dwóch rzeczach. Transkrypcja, zwłaszcza z użyciem dużych modeli, to proces obliczeniowo intensywny. Sprzęt ma tu decydujące znaczenie.

Komputery czy laptopy z dedykowaną kartą graficzną (GPU), zwłaszcza od firmy NVIDIA, poradzą sobie z tym zadaniem znacznie szybciej. Buzz potrafi wykorzystać moc obliczeniową GPU, co może skrócić czas transkrypcji z kilkunastu minut do zaledwie 1-2 minut. Jeśli więc pracujesz z dużą ilością materiałów audio, inwestycja w sprzęt z dobrym GPU może się szybko zwrócić.

Druga opcja to skorzystanie z zewnętrznego API, na przykład bezpośrednio od OpenAI. W ustawieniach Buzz możesz podać swój klucz API. W takim trybie dźwięk jest wysyłany na serwery OpenAI, a transkrypcja odbywa się w chmurze błyskawiczne. Tracisz wtedy jednak główną zaletę Buzz – prywatność i działanie offline. Jest to więc kompromis między szybkością a poufnością danych. Wybór należy do Ciebie i zależy od konkretnego zastosowania.

Inteligencja na twoich warunkach

Ręczne przepisywanie dołącza do reliktów przeszłości niczym przewijanie taśm magnetofonowych ołówkiem. Zmiana jest jednak głębsza niż tylko mechaniczne usprawnienie pracy. Potencjał sztucznej inteligencji, wcześniej udostępniany i kontrolowany przez wielkie korporacje, wraca w ręce użytkownika. Oznacza to odzyskanie istotnego fragmentu cyfrowej niezależności.

Na przykładzie zaprezentowanej aplikacji można śmiało powiedzieć, że dobrej jakości narzędzia AI nie muszą być zarezerwowane wyłącznie dla gigantów technologicznych. Mogą działać lokalnie, na Twoim biurku, gotowe by zamienić każde słowo w tekst.

Buzz dzięki prostocie obsługi i możliwości działania w pełni offline, stanowi świetną alternatywę dla drogich usług chmurowych, dając Ci pełną kontrolę nad Twoimi danymi.

Nie musisz wierzyć na słowo. Pobierz i przetestuj Buzz, aby na własnej skórze przekonać się, jak wygląda prawdziwa, lokalna transkrypcja oparta na potędze modeli Whisper AI.

Więcej informacji o narzędziu Buzz znajdziesz na: https://github.com/chidiwilliams/buzz

[FAQ] Rozwiewamy wątpliwości – wszystko, co chcesz jeszcze wiedzieć o Buzz

Każde nowe narzędzie rodzi pytania. Zanim poświęcisz czas na instalację i testy, chcesz wiedzieć, czy spełni twoje oczekiwania. Zebraliśmy najczęstsze wątpliwości dotyczące Buzz i przygotowaliśmy na nie wyczerpujące odpowiedzi.

Czy Buzz jest darmowy? Gdzie jest haczyk?

Aplikacja jest udostępniana na licencji open-source, co oznacza, że jest całkowicie darmowa i zawsze będzie. Nie ma tu żadnych ukrytych opłat, subskrypcji premium ani limitów transkrypcji, które nagle zablokują ci dostęp w połowie ważnego projektu. Twórca rozwija narzędzie z pasji i dzięki wsparciu społeczności. Jedyny potencjalny koszt, jaki możesz ponieść, jest całkowicie opcjonalny. Chodzi o sytuację, w której zdecydujesz się na wykorzystanie zewnętrznego API, na przykład od OpenAI, aby przyspieszyć działanie programu. Wtedy płacisz bezpośrednio dostawcy usługi za wykorzystaną moc obliczeniową. Działanie w pełni lokalne, na modelach pobranych na twój dysk, nie wiąże się z żadnymi opłatami.

Mówicie „offline i prywatnie”. Czy na pewno żadne dane nie opuszczają mojego komputera?

Tak, i jest to kluczowa zaleta programu. Gdy używasz Buzz w trybie domyślnym, z lokalnie pobranymi modelami, cały proces transkrypcji odbywa się wewnątrz twojego komputera. Plik audio jest przetwarzany przez twój procesor lub kartę graficzną, a wynikowy tekst jest zapisywany na twoim dysku. Żaden fragment twojego nagrania, nawet pojedynczy bajt, nie jest wysyłany na zewnętrzne serwery. Twój wywiad z poufnym źródłem, nagranie sesji terapeutycznej czy firmowe spotkanie dotyczące tajnego projektu – wszystko pozostaje u ciebie. Wyjątkiem, co należy podkreślić, jest świadome i ręczne skonfigurowanie programu do pracy z zewnętrznym API. Wtedy, i tylko wtedy, dane audio są wysyłane do chmury dostawcy usługi, co jest wyraźnie zaznaczone w opcjach programu.

O co chodzi z modelami (Whisper, Whisper.cpp)? Który wybrać?

Buzz korzysta z silnika transkrypcji o nazwie Whisper, stworzonego przez OpenAI. Modele „Whisper” to oryginalne, referencyjne wersje – bardzo dokładne, ale zasobożerne. Z kolei „Whisper.cpp” to ich genialna reimplementacja, zoptymalizowana pod kątem działania na zwykłych procesorach (CPU). Jest znacznie szybsza i mniej obciąża system, co czyni ją idealnym wyborem dla większości użytkowników bez dedykowanej karty graficznej. „Faster Whisper” to kolejna optymalizacja, tym razem z myślą o nowoczesnych kartach graficznych NVIDIA. Dodatkowo każdy wariant ma różne rozmiary – od tiny (malutki) do large (duży). Na początek, dla języka polskiego, świetnym kompromisem między szybkością a dokładnością będzie model Whisper.cpp w rozmiarze medium lub small. Jeśli masz dużo czasu i zależy ci na maksymalnej precyzji, możesz sięgnąć po large.

Mój laptop ma już swoje lata. Czy Buzz zadziała na słabszym sprzęcie?

Zadziała, aczkolwiek musisz uzbroić się w cierpliwość. Piękno Buzz polega na jego skalowalności. Na starszym komputerze, bez dedykowanej karty graficznej, powinieneś trzymać się modeli zoptymalizowanych dla CPU, czyli Whisper.cpp. Wybierz mniejszy rozmiar modelu, na przykład tiny lub base. Transkrypcja godzinnego nagrania może zająć sporo czasu, być może nawet dłużej niż samo nagranie, ale ostatecznie zadanie zostanie wykonane. Transkrypcja na żywo może być na takim sprzęcie problematyczna i objawiać się sporymi opóźnieniami. Mówiąc wprost: da się, ale nie będzie to demon prędkości. Jeśli regularnie pracujesz z materiałami audio, nawet nowoczesny komputer ze zintegrowaną grafiką poradzi sobie o niebo lepiej niż kilkuletni sprzęt.

Jak dokładna jest transkrypcja w języku polskim?

Dokładność transkrypcji w języku polskim jest zaskakująco wysoka, zwłaszcza przy użyciu większych modeli (medium i large). Modele Whisper były trenowane na dużej ilości danych z internetu, co sprawia, że dobrze radzą sobie z gramatyką, odmianą i specyfiką naszego języka. Oczywiście, nie jest idealnie. System może mieć problemy z nazwami własnymi, rzadkim słownictwem technicznym czy neologizmami. Największym wyzwaniem dla każdego systemu transkrypcji jest jakość dźwięku. Czyste, wyraźne nagranie, bez szumów w tle i z jednym mówcą, zostanie przetworzone z niemal idealną precyzją. Im gorsza jakość nagrania, tym więcej błędów. Zawsze warto na koniec przejrzeć tekst i wprowadzić drobne poprawki.

GPU, CPU, API – co to wszystko znaczy i co daje największą szybkość?

Wyjaśnijmy sobie architekturę wydajności w Buzz.

  • CPU (procesor główny) – to mózg twojego komputera. Buzz może działać, opierając się wyłącznie na nim (szczególnie przy użyciu modeli Whisper.cpp). Jest to opcja uniwersalna, działająca na każdym sprzęcie, ale najwolniejsza.
  • GPU (karta graficzna) – wyspecjalizowany układ do obliczeń równoległych. Operacje związane z AI świetnie się do tego nadają. Jeśli masz dedykowaną kartę graficzną (zwłaszcza NVIDIA z obsługą CUDA), Buzz może ją wykorzystać, co skraca czas transkrypcji nawet kilkunastokrotnie w porównaniu do samego CPU. Różnica jest kolosalna.
  • API (interfejs programistyczny aplikacji) – to opcja wysłania zadania do wykonania na zewnętrznych, ultrawydajnych serwerach, na przykład należących do OpenAI. Jest to zdecydowanie najszybsza metoda – wyniki otrzymujesz w ciągu kilkudziesięciu sekund. Ceną jest utrata prywatności (dane opuszczają twój komputer) i koszt związany z usługą.

Podsumowując ranking prędkości: API => GPU => CPU.

Czy mogę używać Buzz do tłumaczenia rozmowy na żywo, na przykład z angielskiego na polski?

Tak, aplikacja ma taką funkcję, ale z pewnymi ograniczeniami. W trybie nagrywania na żywo możesz wybrać zadanie „Translate to English”. Buzz będzie wtedy na bieżąco transkrybował mowę z dowolnego języka i tłumaczył ją na angielski. Niestety, wbudowane modele Whisper są zoptymalizowane głównie pod kątem tłumaczenia na angielski. Tłumaczenie na inne języki, w tym na polski, jest możliwe, ale wymaga skonfigurowania zewnętrznego API (jak DeepL czy OpenAI GPT). Bez tego pozostaje ci dwuetapowe rozwiązanie – najpierw transkrypcja na żywo do tekstu w języku oryginalnym, a następnie skopiowanie tekstu i przetłumaczenie go za pomocą innego narzędzia.

Co się dzieje, gdy w nagraniu jest dużo szumu albo kilka osób mówi naraz?

W takich warunkach każdy system transkrypcji, nawet ludzki, ma problemy. Buzz radzi sobie z umiarkowanym szumem w tle całkiem nieźle, ale przy dużym natężeniu zakłóceń jakość transkrypcji gwałtownie spada. Mogą pojawiać się przekłamania lub całe fragmenty mogą zostać pominięte. Jeśli chodzi o kilka osób mówiących jednocześnie, model spróbuje wychwycić dominujący głos lub po prostu zapisze niezrozumiałą mieszankę słów. Aplikacja nie posiada wbudowanej funkcji identyfikacji mówców (speaker diarization), więc cały tekst pojawi się jako jeden blok, bez rozróżnienia, kto co powiedział. Kluczem do sukcesu jest zawsze jak najczystsze nagranie źródłowe.

Czy mogę importować wideo bezpośrednio z YouTube? A co z innymi platformami?

Tak, Buzz bez problemu radzi sobie z importowaniem materiałów bezpośrednio z linków do YouTube. Wystarczy wkleić adres URL w oknie importu, a program sam pobierze ścieżkę dźwiękową i podda ją transkrypcji. Jest to niezwykle wygodne do tworzenia napisów lub notatek z webinarów i wykładów. Wsparcie dla innych platform może być różne. Ogólnie rzecz biorąc, jeśli narzędzie yt-dlp (na którym Buzz bazuje) jest w stanie pobrać audio z danego linku, Buzz również powinien sobie z nim poradzić. Obejmuje to wiele popularnych serwisów wideo i audio.

Zakończyłem transkrypcję. Jak mogę edytować tekst i go wyeksportować?

Po zakończeniu pracy aplikacja przeniesie cię do widoku transkrypcji. Tekst jest tam w pełni edytowalny. Możesz klikać na poszczególne segmenty, poprawiać błędy, zmieniać interpunkcję. Interfejs jest prosty i funkcjonalny. Gdy będziesz zadowolony z efektu, możesz wyeksportować swoją pracę do kilku popularnych formatów. Do wyboru masz pliki tekstowe (TXT) oraz formaty napisów (SRT, VTT), które zachowują znaczniki czasowe. Dzięki temu możesz od razu wgrać gotowe napisy do swojego programu do edycji wideo.

Czym Buzz różni się od popularnych usług online?

Główna różnica leży w filozofii działania. Usługi online, jak Otter.ai czy wbudowane narzędzia Google, działają w chmurze. Oferują często dodatkowe funkcje, jak identyfikacja mówców czy współpraca w czasie rzeczywistym, ale wymagają wysłania pliku na serwer firmy trzeciej i zazwyczaj są płatne w modelu subskrypcyjnym. Buzz stawia na pierwszym miejscu prywatność i kontrolę. Działa lokalnie, jest darmowy i nie uzależnia cię od połączenia internetowego ani od polityki prywatności zewnętrznej firmy. To narzędzie dla kogoś, kto ceni sobie niezależność i chce mieć pewność, że jego dane pozostaną jego własnością.

Wspomnieliście o API od OpenAI. Czy użycie go nie zaprzecza idei prywatności?

Skorzystanie z opcji API jest świadomą rezygnacją z głównej zalety programu na rzecz szybkości. Jest to funkcja dla użytkowników, którzy mają taką potrzebę i akceptują konsekwencje. Domyślnie Buzz jest w 100% offline. Opcja API jest wyłączona i wymaga ręcznej konfiguracji, w tym podania własnego klucza dostępowego. To jawny wybór, a nie ukryte działanie. Można na to patrzeć jak na posiadanie samochodu elektrycznego (tryb lokalny), który dodatkowo ma wbudowany mały silnik spalinowy (tryb API) na wypadek, gdybyś potrzebował awaryjnie pokonać bardzo długi dystans w rekordowym czasie. Używasz go tylko wtedy, gdy musisz.

Aplikacja działa wolno. Jak mogę przyspieszyć proces transkrypcji?

Jeśli czujesz, że transkrypcja trwa wieki, oto kilka kroków, które możesz podjąć:

  1. Zmień model na lżejszy – przełącz się z Whisper na Whisper.cpp lub Faster Whisper (jeśli masz GPU).
  2. Zmniejsz rozmiar modelu – zamiast large czy medium, spróbuj small lub base. Dokładność nieco spadnie, ale prędkość znacząco wzrośnie.
  3. Sprawdź ustawienia GPU – upewnij się w preferencjach, że jeśli masz kartę graficzną NVIDIA, jest ona poprawnie skonfigurowana do pracy z programem.
  4. Zwolnij zasoby systemowe – zamknij inne programy, które mogą obciążać procesor lub pamięć RAM podczas pracy Buzz.
  5. Rozważ opcję API – jeśli regularnie przetwarzasz długie pliki i czas jest kluczowy, zewnętrzna usługa będzie bezkonkurencyjna pod względem szybkości.

Czy mogę dodać własny słownik, na przykład z nazwami własnymi lub branżowym żargonem?

Na chwilę obecną Buzz, podobnie jak sam silnik Whisper, nie oferuje prostej funkcji dodawania niestandardowego słownika. Model opiera swoją wiedzę na tym, czego nauczył się podczas treningu. Oznacza to, że z rzadkimi, specjalistycznymi terminami, nazwami firm czy skomplikowanymi nazwiskami może sobie nie radzić. Najlepszym sposobem na obejście problemu jest szybkie wyszukanie i zamiana błędnie przetworzonych słów w edytorze tekstu po zakończeniu transkrypcji. Dla wielu zastosowań nie stanowi to dużej przeszkody, jednak w dziedzinach wymagających idealnego odwzorowania żargonu, może wymagać dodatkowej pracy redakcyjnej.