Subskrybuj newsletter o cyfrowej humanistyce i innowacjach w sektorze kultury

Wykorzystanie sztucznej inteligencji w sektorze dziedzictwa

Okładka lekcji: rozpoznawanie wizerunków kotów za pomocą narzędzia AI / Źródło: AI

Wprowadzenie

Trudno dziś nie dyskutować o możliwościach sztucznej inteligencji i jej znaczeniu w rozmaitych dziedzinach naszego życia, chociaż czasem sporym wyzwaniem jest już zgodne rozumienie tego pojęcia. Sztuczna inteligencja (artificial intelligence, AI) to - zgodnie z definicją proponowaną w opracowaniu Parlamentu Europejskiego

zdolność maszyn do wykazywania ludzkich umiejętności, takich jak rozumowanie, uczenie sie, planowanie i kreatywność (Źródło: Europarlament)

W takim sensie inteligencja jest wciąż pewną metaforą albo oczekiwaniem - żadne współczesne rozwiązanie nie powiela efektywności i głębi ludzkiej inteligencji.

AI to nie tylko rozwiązania biznesowe. W 2024 roku w czasopiśmie naukowym “Heritage” ukazało się opracowanie Sztuczna inteligencja dla innowacji w dziedzictwie cyfrowym: propozycja programu badań i rozwoju dla Europy, które przedstawia możliwości wdrożenia metod i aplikacji AI w sektorze kultury i dziedzictwa. Poniższe zestawienie zostało przygotowane na bazie tego artykułu, cytowanych w nim tekstów oraz rozszerzone o dodatkowe przykłady zastosowań AI.

Część merytoryczna

Można wymienić kilka głównych pól zastosowań sztucznej inteligencji w dziedzictwie kulturowym:

Analizowanie i rekonstruowanie obiektów

Metody sztucznej inteligencji pozwalają na analizowanie i rekonstruowanie obiektów, np. poprawianie jakości skanów, uzupełnianie ubytków treści, usuwanie błędów.

Możesz przywrócić uszkodzony obraz - faktycznie, możesz zrobić więcej niż tylko przywrócić go, możesz go zinterpretować, poprawić i uzyskać o wiele lepszą jakość niż zakładali bracia Lumière, na przykład, gdy stworzyli [jeden ze swoich pierwszych filmów] “Przyjazd pociągu do La Ciotat”

mówił współzałożyciel francuskiego studia efektów specjalnych Mac Guff podczas zeszłorocznego festiwalu Lumière Film Festival.

Rzeczywiście, w 2021 roku rosyjski bloger i programista Denis Szyriajew opublikował na YouTube odświeżoną przez AI wersję słynnego filmu braci Lumière. Z pomocą algorytmu dostarczanego przez firmę Gigapixel.ai udało mu się przetworzyć nagranie z 1896 roku do rozdzielczości 4K:

Metody uczenia maszynowego, jedna z technik AI, mogą zostać użyte także do automatycznego kolorowania historycznych zdjęć lotniczych lub rekonstrukcji starożytnych mozaik. W końcu 2023 roku w mediach pojawiła się informacja o skutecznych próbach odczytywania treści zwęglonych starożytnych zwojów. Papirusy z Herkulanum zostały zwęglone w wyniku erupcji Wezuwiusza w 79 roku - odnalezione w XVIII wieku wciąż pozostawały nieodczytane, ponieważ rozwinięcie zwoju oznaczałoby jego zniszczenie. Dzięki zastosowaniu uczenia maszynowego udało się odczytać pierwsze zdanie z jednego z dokumentów.

Rozpoznawanie i klasyfikacja obiektów

Poprzez wyodrębnianie i analizę cech wizualnych i wzorców opracowywanych obiektów, prowadzoną niekiedy na masową skalę, algorytmy sztucznej inteligencji mogą je identyfikować i kategoryzować, uzupełniając katalogi czy indeksy oraz wykrywając nowe sieci relacji między artefaktami. Możliwe jest np. wykrywanie symboli na starożytnych papirusach czy wspieranie ręcznej weryfikacji i analizy obiektów metodami sztucznej inteligencji.

Narzędzia takie jak Labelbox pozwalają bez konieczności budowania środowiska i samodzielnego trenowania modelu wdrożyć metody maszynowej klasyfikacji materiałów wizualnych także muzeom, archiwom społecznym czy kolekcjonerkom.

Transkrypcja i tłumaczenie

Rozmaite narzędzia AI pozwalają na automatyczną transkrypcję i tłumaczenie tekstów, w tym dokumentów historycznych, inskrypcji i manuskryptów na współczesne języki. Niektóre z nich umożliwiają pracę z pismem ręcznym - metody te podsumowuje opracowanie dotyczące możliwości zastosowania oprogramowania Transkribus.

Historyczne modele rozpoznawania pisma ręcznego bazują oczywiście na wydawanych w wybranym okresie książkach i publikowanych dokumentach. Przykładowo, model Ligorio 0.3 wytrenowany został na rękopisie encyklopedii pisanej przez XVI-wiecznego włoskiego architekta i antykwariusza Pirro Ligorio. Model ten rozpoznaje słowa w języku włoskim, greckim i łacińskim.

O wykorzystaniu tego typu narzędzi w pracy z dziedzictwem rękopiśmiennym pisze Melissa Terras: chociaż większość projektów z platformy Transkribus, o których informację zbierała ta badaczka, obejmowało teksty o objętości poniżej tysiąca stron, to aż w 17 proc. analizowanych projektów pracowano na ponad 10 tys. stron rękopisów (2022). Dominującymi językami tekstów był niemiecki, łacina, angielski i francuski.

NLP i analiza dużych zbiorów tekstów

Przetwarzanie języka naturalnego (NLP) i automatyczna analiza dużych zbiorów tekstów pozwala na skorzystanie ze źródeł w nowy sposób. Przykładowo, klasyfikacja i wyodrębnianie danych z 170 tys. listów portugalskiego imperium kolonialnego pozwoliło na utworzenie sieci relacji między najważniejszymi urzędami tego imperium oraz badanie zmian tej sieci w czasie. Istnieją już także metody pozwalające na automatyczne grupowanie dokumentów historycznych z szacowaniem daty i miejsca pochodzenia.

Metody NLP pozwalające na opisywanie i przeszukiwanie zbiorów archiwów mogą mieć fundamentalne znaczenie w przypadku zbiorów tzw. born digital (nieposiadających pierwotnej postaci cyfrowej). Przykładowo, oprogramowanie ePADD, pozwalające na przechowywanie i przeglądanie zbiorów historycznych poczty elektronicznej, wykorzystuje własne rozwiązania NLP do ekstrakcji tzw. jednostek nazwanych (named entities) czy usprawnienia wyszukiwania. Za pomocą tego oprogramowania przechowywany jest i eksplorowany zbiór 40 tys. maili brytyjskiej poetki Wendy Cope, które jeszcze w 2011 roku zostały - wraz z inną spuścizną autorki - zakupione do zbiorów British Library.

Immersyjne doświadczenie dziedzictwa

Immersyjne doświadczenia to doświadczenia całkowicie absorbujące użytkownika, sprawiające, że przeżywa on bycie wewnątrz wygenerowanego świata lub scenariusza. Rozwiązania wirtualnej rzeczywistości (VR) i rozszerzonej rzeczywistości (AR), wykorzystywane w niektórych muzeach, pozwalają zwiedzającym wirtualnie eksplorować starożytne ruiny, historyczne miejsca czy wystawy.

Na poziomie UE finansowanych było lub jest kilka dużych programów wykorzystujących rozwiązania skanowania i prezentacji 3D oraz rzeczywistości rozszerzonej. To projekty takie jak INCEPTION, którego celem było wypracowanie standardów skanowania 3D oraz przygotowywania modeli, z myślą o jak największej ich dostępności i możliwości niezależnego wdrażania. Metody uczenia maszynowego były w tej inicjatywie pokazywane jako sposób na uzupełnianie informacji udostępnianych wraz ze skanami 3D. Podobnie w programie ViMM, skierowanym przede wszystkim do sektora muzealnego, pokazuje się łączenie skanowania 3D i sztucznej inteligencji np. w badaniach nad dziełami sztuki.

W czasopiśmie naukowym “Applied Science” można zapoznać się z opracowaniem na temat aktualnych możliwości i zastosowania metod skanowania oraz modelowania 3D w sektorze dziedzictwa kulturowego, w tym również ich łączenia z metodami sztucznej inteligencji.

Analiza treści kulturowych i nowe interpretacje

Analiza obiektów dziedzictwa z wykorzystaniem AI może ujawnić wzorce, motywy i wpływy kulturowe, dostarczając nowych danych i otwierając drogę do nowych interpretacji np. prądów artystycznych czy gatunków twórczości. Niekiedy analiza taka może zostać wykorzystana do uzupełniania metadanych, szczególnie jeśli metoda automatycznego generowania opisów uwzględnia kontekst historyczny zbioru.

W badaniach literaturoznawczych uczenie maszynowe jest elementem zbioru narzędzi czytania zdystansowanego (distant reading). Wśród zastosowań AI w tego typu badaniach znajduje się m.in. analiza sentymentu (rozpoznawanie emocji w tekście), automatyczne porównywanie i klasyfikowanie tekstów, rozpoznawanie autorstwa czy wyodrębnianie jednostek nazwanych - słów o określonym znaczeniu (np. nazwisk, nazw geograficznych, fraz opisujących określone czynności czy stany).

Efektem prac tego typu może być nie tylko lepsze opisanie dużych zbiorów tekstów czy obiektów wizualnych, ale otwarcie ich na nowe interpretacje czy krytykę.

W Bibliotece Kongresu wykorzystano AI do wyodrębniania ze skanów gazet codziennych materiałów graficznych, map, nagłówków czy reklam. W tym przypadku AI pozwoliło z jednorodnego zbioru obiektów (skanów prasy) wytworzyć bogaty zbiór elementów, które mogą być badane i upowszechniane osobno. Oprogramowanie Newspaper Navigator użyte do tej pracy zostało udostępnione - jego skuteczność wobec różnego typu elementów wydań gazetowych czy książek wynosi od 30 do 78 proc.

Przetwarzanie skanów gazet codziennych w projekcie Newspaper Navigator / Źródło: https://github.com/LibraryOfCongress/newspaper-navigator

Personalizacja i systemy rekomendacyjne

Personalizacja i systemy rekomendacyjne, które uzupełniają ofertę wyszukiwarek, indeksów i katalogów, pozwalając na lepsze dopasowywanie informacji o zbiorach do potrzeb użytkowniczek. Przegląd systemów rekomendacji uwzględniających kontekst w dziedzictwie kulturowym pokazuje, że możliwa jest taka praca z algorytmami rekomendacyjnymi, aby modyfikować ich metody poprzez wymuszanie uwzględniania czynników takich jak lokalizacja użytkownika i aktualny czas czy dodatkowych źródeł danych kontekstowych, którymi mogą być np. komentarze turystów na temat odwiedzonych zabytków.

Digitalizacja i ochrona zabytków

Skanowanie laserowe lub fotogrametria pozwala tworzyć niezwykle dokładne wirtualne rekonstrukcje historycznych przestrzeni i zabytków oraz badać je w nowy sposób. Rozwiązania AI wykorzystywane mogą być jednak również do starań o ochronę takich obiektów, np. poprzez monitorowanie stanu zachowania czy pogody. W artykule Techniki uczenia maszynowego w monitorowaniu stanu technicznego zabytkowych budynków wymienia się rodzaje zagrożeń, które można monitorować i analizować za pomocą narzędzi sztucznej inteligencji - to m.in. badanie wytrzymałości zaprawy i materiałów, z których zbudowano zabytek, monitorowanie wentylacji i wilgoci czy badanie stopnia degradacji tynków.

Ochrona i prezentacja dziedzictwa multimodalnego

Dziedzictwo kulturowe jest multimodalne, szczególnie w takich swoich wymiarach jak muzyka, taniec, śpiew, teatr czy rzemiosło. Trudno przecież uznać, że reprezentuje je wyłącznie jedno medium. Przykładem wykorzystania AI do zadania ochrony i eksploracji takiego dziedzictwa jest projekt MODAVIS, polegający na wirtualizacji (przeniesieniu w przestrzeń oprogramowania) zabytkowych kościelnych organów piszczałkowych. Digitalizacja polega tutaj na wytworzeniu wielu cyfrowych obiektów od skanów 3D poprzez pliki dźwiękowe MIDI aż do plików zawierających dane na temat ruchu poszczególnych elementów zabytkowych instrumentów.

Nowe historie sztuki i nowa twórczość?

Narzędzia AI mogą wspomagać twórców i twórczynie w pracy nad nowymi dziełami sztuki lub automatycznie proponować własne interpretacje artystyczne. Pytanie, czy sztuczna inteligencja może tworzyć sztukę ma nie tylko naturę filozoficzną, ale dotyka też takich sfer jak prawo autorskie czy system wynagradzania twórców. Artykuł z czasopisma naukowego “ACM Transactions on Multimedia Computing, Communications, and Applications” pozwala zapoznać się z głównymi zagadnieniami w relacjach między AI a sztuką. Pierwszy problem to wykorzystanie AI do analizy dzieł sztuki czy nawet proponowania nowych interpretacji historii sztuki, drugi - wykorzystanie AI do tworzenia nowych dzieł, także na bazie tych stworzonych przez artystów czy artystki.

Wyzwania dla stosowania AI w sektorze dziedzictwa

Nawet ten krótki spis możliwości metod sztucznej inteligencji pokazuje, jak wielką zmianą może być jej wykorzystanie w sektorze kultury i dziedzictwa. Warto jednak unikać nadmiernego entuzjazmu wobec roli AI w tej sferze - sztuczna inteligencja ma wciąż istotne ograniczenia. W kontekście dziedzictwa jednym z głównych wyzwań jest jakość dostępnych zasobów cyfrowych, na których bazują modele sztucznej inteligencji, oraz brak równomiernego dostępu do takich zbiorów. Szczególnie krytyczne jest to w przypadku dziedzictwa kulturowego słabiej reprezentowanych społeczności czy grup etnicznych, gdzie dostęp do zdigitalizowanych artefaktów jest ograniczony. Wyzwaniem jest również brak standaryzacji danych oraz brak spójności (także chronologicznej) pomiędzy różnymi zestawami danych - przykładowo model językowy wytrenowany na polskiej Wikipedii nie będzie wystarczający do porządnej analizy lub klasyfikacji treści XVIII-wiecznych pamfletów.

W praktyce stosowania AI w badaniach dziedzictwa kulturowego istnieje również problem reprodukowalności wyników - konieczne jest zapewnienie możliwości ich niezależnej weryfikacji. Wykorzystanie metod sztucznej inteligencji w sektorze dziedzictwa wymaga niekiedy trudnej współpracy między specjalistami i specjalistkami z różnych dziedzin, odpowiedniego finansowania oraz stabilności projektów, a także przestrzegania zasad etycznych i prawnych, w tym prawa autorskiego. Niestety, te warunki nie zawsze są łatwe do spełnienia w sektorze dziedzictwa kulturowego ani w systemie naukowym. Wspomniany wyżej Denis Szyriajew, któremu udało się przetworzyć zdigitalizowane nagranie filmu braci Lumière do jakości 4K, otrzymał od Instytutu Lumière, reprezentującego potomków słynnych braci, wezwanie do usunięcia filmu - ze względu na potencjalne złamanie praw autorskich.

Podsumowanie

Chociaż niektóre metody AI, takie jak segregowanie zbiorów fotograficznych, nie muszą być skomplikowane w obsłudze i można stosować je bez odpowiedniego przygotowania informatycznego, specyfika zbiorów kulturowych i dziedzictwa często uniemożliwia wykorzystanie ogólnych modeli. W związku z tym konieczne jest budowanie narzędzi lub korzystanie z narzędzi, które są w stanie uwzględnić specyficzny kontekst. Stosowanie sztucznej inteligencji w sektorze dziedzictwa wymaga znajomości odpowiednich rozwiązań technicznych, ale i głębokiego zrozumienia historycznych, kulturowych i społecznych warunków, w jakich funkcjonowały opracowywane zbiory.