Informacje ogólne
Na rynku dostępne są usługi analizy treści wideo (np. Google Cloud Platform – Video Intelligence, Amazon Rekognition lub Microsoft Video Indexer). Te narzędzia oferują zaawansowaną analizę wideo, jednak warto wziąć pod uwagę ograniczenia związane z brakiem elastyczności oraz możliwości przetwarzania danych lokalnie i integracji z innymi rozwiązaniami. Dzięki rozwojowi sztucznej inteligencji i dużych modeli językowych pojawiło się wiele nowych możliwości w zakresie analizy i indeksowania treści wideo.
Dlatego postanowiliśmy zaprojektować i stworzyć rozwiązanie składające się z elastycznych modułów, odpowiadając w ten sposób na potrzeby zgłaszane przez naszych klientów. Opracowaliśmy dwa nowe komponenty pakietu Matena: Matena Analyzer (używany do analizy i indeksowania treści wideo) oraz Matena Knowledge (używany do przechowywania i prezentacji wyników przetwarzania). Matena Analyzer może być wykorzystywana do rozpoznawania twarzy, lokalizacji i wykrywania obiektów, transkrypcji, diaryzacji, tagowania, oznaczania treści dla dorosłych, OCR i wielu innych. Do budowy tego systemu wykorzystaliśmy najnowsze rozwiązania z zakresu sztucznej inteligencji. Nasz system wyróżnia elastyczność, otwartość na korzystanie z rozwiązań oferowanych przez różnych dostawców oraz gotowość na pojawienie się nowych rozwiązań w najbliższej przyszłości.
Docelowymi użytkownikami naszego rozwiązania są grupy i firmy związane z branżą medialną, a także osoby i przedsiębiorstwa zajmujące się szeroko pojętym zarządzaniem bibliotekami multimedialnymi. Dzięki produktom Matena nasi klienci mają możliwość efektywnego wyszukiwania w swoich archiwach multimedialnych oraz w poszczególnych plikach – mogą to robić m.in. na podstawie osób, lokalizacji, obiektów, słów czy tagów. Dodatkowo mogą monetyzować swoje zindeksowane dane.
Budowa systemu

Modułowość i możliwość uruchamiania Mateny lokalnie
Głównym założeniem architektonicznym naszego systemu jest modułowość. Dzięki niej można dodawać, aktywować i dezaktywować poszczególne komponenty, które są lub nie są potrzebne użytkownikowi w danym momencie. Moduły systemu mogą być łączone w potoki przetwarzania w zależności od potrzeb klientów. Obecnie w Matenie dostępne są następujące moduły:
- – Matena Analyzer:
- – Moduł rozpoznawania twarzy (z bazą twarzy, którą użytkownik może dowolnie rozszerzać o nowe osoby)
- – Moduł transkrypcji i diaryzacji (podział na mówców)
- – Moduł generujący opis, etykiety, tagi, słowa kluczowe, sentyment i inne artefakty dla poszczególnych scen materiału przy użyciu dużego modelu językowego
- – Integracja z innymi narzędziami do analizy audio i wideo
- – Matena Knowledge – centralne repozytorium danych z analizowanych materiałów
Kolejnym istotnym aspektem jest to, że pełna wersja Mateny może być zainstalowana lokalnie. Dodatkowo, jakość analizy dostarczanej przez nasz system jest porównywalna z jakością wyników generowanych przez GPT-4o.
Rozpoznawanie twarzy
Jednym z głównych modułów dostępnych w Matenie Analyzer jest rozpoznawanie twarzy w materiale wideo. W tym celu zaimplementowaliśmy algorytm rozpoznawania twarzy i zastosowaliśmy przekształcenia afiniczne, aby maksymalnie zwiększyć skuteczność modelu. Dodatkowo stworzyliśmy algorytm dopasowujący rozpoznane twarze i obiekty pomiędzy kolejnymi klatkami w sekwencji wideo. Nasz system został zaprojektowany tak, aby efektywnie przeszukiwać duże zbiory twarzy. Moduł rozpoznawania twarzy obsługuje również douczanie nowymi twarzami dodawanymi przez użytkowników, co umożliwia im tworzenie własnych baz osób.


Ponieważ międzynarodowe bazy twarzy nie spełniają potrzeb firm w naszym kraju, zbudowaliśmy bazę twarzy dla modułu rozpoznawania twarzy od podstaw. Obejmuje ona około 5000 polskich osób publicznych.
Transkrypcja i diaryzacja
Jednym z komponentów wpływających na dokładność opisu materiału wideo jest to, co mówią pojawiające się w nim osoby. Dlatego nasz system analizuje zarówno obraz, jak i tekst zawarty w materiale. Wykorzystaliśmy technologię rozpoznawania mowy (speech-to-text), aby uzyskać transkrypcje poszczególnych klatek oraz całego materiału. W tym celu stosowane są Microsoft Speech oraz Whisper firmy OpenAI. Dodatkowo wprowadziliśmy możliwość włączenia diaryzacji, czyli podziału transkrypcji na poszczególnych mówców.

Opis materiału za pomocą modelu językowego
Głównym kołem napędowym naszego systemu jest komponent wyodrębniający wiele różnych informacji z materiału wideo i audio, np. sentyment, tagi i etykiety opisujące klatki, obiekty lub miejsca.

Matena Analyzer może też być stosowana do analizy materiałów audio. W tym przypadku otrzymujemy opis oraz etykiety, obiekty i miejsca bazując na samej transkrypcji.

Ta funkcjonalność działa dzięki użyciu dużych modeli językowych, np. GPT-4 (w chmurze) lub Bielika (lokalnie), w zależności od potrzeb danego użytkownika. Nasz system i sam komponent opisujący materiał za pomocą LLM-ów cechuje to, że może być w prosty sposób modyfikowany, więc jeśli użytkownik ma jakiś wyszczególniony cel, w którym chciałby go użyć, to Matena Analyzer może być łatwo w tym konkretnym celu przekonfigurowana.
Integracja z innymi usługami analizy wideo
Matena może być zintegrowana z innymi usługami analizy i indeksowania wideo, na przykład z Microsoft Video Indexer. Taka integracja może być wdrożona, jeśli użytkownik chce korzystać z określonego oprogramowania. Dane dostarczone przez inne usługi mogą być wykorzystane do wzbogacenia komponentu Matena Knowledge – repozytorium danych o materiałach źródłowych.
Matena Knowledge – centralne repozytorium danych z analizowanych materiałów
Stworzyliśmy komponent do przechowywania i prezentacji wyników przetwarzania – Matena Knowledge. Jest to centralne repozytorium danych pozyskiwanych z analizowanych materiałów, gdzie użytkownicy mogą efektywnie przeglądać szczegóły dotyczące każdej klatki oraz całego materiału.
Matena Knowledge może być szczególnie przydatna dla firm medialnych – mogą używać tego modułu do wyszukiwania kognitywnego, systemów RAG lub innych aplikacji biznesowych.
Podsumowanie
Stworzyliśmy system, który umożliwia analizę i indeksowanie treści wideo. Znaczącą zaletą naszego rozwiązania jest to, że jego komponenty są elastyczne i mogą być dostosowywane do indywidualnych potrzeb każdego klienta, oraz że nie jesteśmy ograniczeni do korzystania tylko z usług jednego dostawcy.
Nieustannie rozwijamy narzędzia pakietu Matena i planujemy wprowadzenie dodatkowych modułów, takich jak rozpoznawanie efektów dźwiękowych czy muzyki. Opinie i sugestie naszych użytkowników są dla nas niezwykle ważne, a my zawsze dokładamy wszelkich starań, aby dostosować nasze rozwiązania do tych sugestii.
Branża
Media
Słowa kluczowe
Zarządzanie bibliotekami multimedialnymi, rozpoznawanie twarzy, transkrypcja, STT, diaryzacja, duży model językowy, LLM
Technologie
Microsoft Speech, Whisper, GPT-4, Bielik, Llama