Subskrybuj newsletter o cyfrowej humanistyce i innowacjach w sektorze kultury

Biblioteki, archiwa i muzea jako źródła danych

Okładka lekcji: kot układający klocki / Źródło: AI

Wprowadzenie

Zbiory instytucji kultury i dziedzictwa utożsamiamy ze zdigitalizowanymi wizerunkami (skanami). To do nich chcemy mieć dostęp, z nich chcemy korzystać, je przetwarzać. Jednak te instytucje udostępniają nie tylko cyfrowe artefakty, ale też informacje o nich w postaci danych (metadanych). Zazwyczaj robią to za pomocą tych samych serwisów i interfejsów, nie wyróżniając specjalnie tego, że dane same w sobie mogą być cennym zasobem.

W wydanym w 2020 roku zbiorze The Routledge Companion to Digital Humanities and Art History Anne Luther, badaczka i założycielka Instytutu Cyfrowego Dziedzictwa, przedstawia podstawy i opisuje ograniczenia związane z wykorzystaniem danych w badaniach nad kulturą i instytucjami kultury. Niniejsze opracowanie w części bazuje na głównych wątkach tego artykułu.

Część merytoryczna

Dane kulturowe i historia sztuki oparta o dane

Dane, które posiadają i mogą udostępniać instytucje GLAM (galerie, biblioteki, archiwa, muzea) to nie tylko opisy katalogowe czy inwentarze zbiorów. Można wyobrazić sobie takie zestawy danych, które pokazują zbiory w nowym kontekście. Wyobraźmy sobie dane statystyczne opisujące publiczność wystaw tematycznych (tutaj prezentowane zbiory są jedynie kontekstem dla podanych liczb i wartości), wpisy z mediów społecznościowych, gdzie zbiory i obiekty są komentowane, dane z aukcji czy wywiady z pracowniczkami i pracownikami instytucji. Dostęp do tych treści i ich przekształcanie w dane nie zawsze są łatwe, ale spojrzenie na instytucję i jej zbiory przez dane może być podstawą badań i analiz.

Czy to nowe podejście? Niekoniecznie. W 2015 roku Lev Manovich opublikował artykuł Data Science and Digital Art History, w którym przekonywał, że wyliczone z obiektów kultury dane mogą stać się podstawą osobnych studiów, specyficznej humanistyki wizualności, której nie da się uprawiać bez metod cyfrowych. Jednak już na początku lat 00. w Języku nowych mediów Manovich przekonywał, że skoro zasoby kultury dostępne są dziś w postaci cyfrowej, to można je przekształcać na dane, badać metodami statystycznymi i wizualizować. Takie podejście zrealizowali w 2010 roku twórcy Google Ngram Viewer, przekonując, że można mówić o nowym kierunku badań - kultunomii, w którym kulturę bada się metodami ilościowymi na ogromnych, niedostępnych wcześniej zbiorach cyfrowych.

Dziś takie podejście przynależy do podstawowych założeń cyfrowej humanistyki. Metodami ilościowymi - dzięki konwersji artefaktów na dane - bada się nie tylko zbiory wizualne, ale także język naturalny, muzykę czy przestrzeń. Sukces narzędzi takich jak ChatGPT jest też po części sukcesem podejścia do kultury jako zbioru danych: każde zdanie wygenerowane w rozmowie z tym narzędziem jest przecież efektem przekształcenia języka naturalnego na zestaw tokenów, których prawdopodobieństwo umieszczenia w wybranym słowie i zdaniu określane jest na podstawie miar statystycznych.

Badacze i badaczki, którzy chcieliby pracować z danymi kultury, mają do tego narzędzia i metody. Jednak problem bardzo często leży po stronie źródeł danych - instytucji kultury. Nie zawsze chcą, ale też nie zawsze mogą takie dane udostępniać.

Różne poziomy dostępności danych

Anne Luther w swoim opracowaniu opisuje pięć poziomów otwartości (dostępności) danych kultury, przywołując schemat Five Stars of Open Data zaproponowany przez Tima Bernersa-Lee. Bardziej wartościowe byłoby jednak zwrócenie uwagi na standard FAIR, z którego korzystają też polskie instytucje naukowe. Standard ten wymaga, aby dane były łatwe do znalezienia i pobrania, dostępne w formacie pozwalającym na ich łatwe użycie i opisane odpowiednią licencją, która zezwoli na ich ponowne wykorzystanie.

Niestety, jak pisze Luther,

otwartość dostępu do zbiorów danych muzealnych nie jest jeszcze wpisana w edukacyjną misję muzeów. Decyzje o tym, które dane opublikować, w dużych instytucjach zależą często od wskazówek działów prawnych, a w mniejszych podejmowane są przez nielicznych entuzjastów [zainteresowanych tym tematem - MW].

Poza regulacjami prawa autorskiego, które nie muszą być zresztą uznane za radykalnie ograniczające (zob. zasady ponownego wykorzystywania informacji sektora publicznego), na dostępność danych gromadzonych i wytwarzanych przez instytucje kultury wpływają kwestie ochrony prywatności oraz oczywiście brak finansowania tego typu działań. Problemem jest też pewien brak świadomości: w muzeach, archiwach i bibliotekach wciąż powstają nowe platformy udostępniania wizerunków zbiorów, ale często nie ma w nich komponentów do maszynowego udostępniania danych. Tak jakby jedynym zasobem, którym instytucja może dzielić się z odbiorcami, były cyfrowe artefakty.

Na szczęście ustawa o ponownym wykorzystywaniu informacji sektora publicznego oraz metody web scrapingu pozwalają nam na samodzielne sięgnięcie po dane kultury. Wystarczy tylko, żeby witryna prezentująca zbiory była zbudowana na tyle przejrzyście i zgodnie ze standardami, aby dało się na niej wykonywać skuteczne kwerendy XPath. Tak na przykład powstają niektóre ze zbiorów danych warsztatowych na humanistyka.dev

Ograniczenia metod ilościowych w badaniach kultury

Pozyskanie dobrej jakości danych kultury to niekiedy spora trudność, wyzwaniem jest też jednak ich badanie i interpretacja. Anne Luther zwraca uwagę, że zdecydowana większość metod i narzędzi używanych w badaniach z wykorzystaniem danych kultury pochodzi z dziedzin STEM (Science, Technology, Engineering, Mathematics). Czy rzeczywiście są one odpowiednie w zastosowaniach humanistycznych? Wypracowano je przecież do interpretowania zjawisk, które w oczywisty sposób są dostępne do analizy matematycznej i statystycznej - kultura i dziedzictwo mają zupełnie inną naturę.

Co więcej - o czym już nie pisze Luther - korzystanie z tych narzędzi do badania zjawisk kultury zmusza nas do zadawania pytań o pewną szczególną rolę oprogramowania. Analizując, przetworzone na dane ogromne zbiory tekstów, materiałów wizualnych czy dźwięków, polegamy na oprogramowaniu, ponieważ samodzielnie nie jesteśmy w stanie pochylić się nad każdym artefaktem. W rezultacie część naszej podmiotowości jako badacza czy badaczki oddajemy oprogramowaniu. Przerzucamy na oprogramowanie także część odpowiedzialności za to, jak te zbiory interpretujemy. Nie zawsze mamy niezbędne kompetencje, żeby wiedzieć, na jakiej zasadzie dany program czy metoda działa, i stosowanie narzędzi cyfrowych zaczyna niebezpiecznie przypominać wciskanie guzika czarnej skrzynki. Wiemy, jakie dane udostępniamy do przetwarzania, pozyskujemy określony wynik, ale nie mamy pojęcia, dlaczego jest taki a nie inny.

Standaryzacja: konieczność i wada

Powinno być dla nas oczywiste - i Anne Luther też to pokazuje w swoim opracowaniu - że żadne dane nie są neutralne i obiektywne. Autorka zwraca uwagę na kwestię standaryzacji, jako kluczowej metody przetwarzania kultury w dane.

Dobrym przykładem może być kolor, oczywista kategoria analityczna w badaniach historii kultury. Chcąc przetworzyć zbiory artefaktów wizualnych (np. obrazów czy fotografii) na dane, możemy wygenerować z nich zestawy informacji o kolorach. Jednak od naszego wyboru zależy, jak głęboko opisywać będziemy paletę danego obiektu (czy do metadanych wpiszemy kolor dominujący, paletę dziesięciu najczęściej występujących kolorów czy paletę wyliczoną algorytmicznie). A może kolory mamy opisane ręcznie, bo nasza baza zbiorów powstała na podstawie katalogu kartkowego i nie użyto do jej tworzenia żadnych metod komputerowych, które mogłyby zapewnić określoną spójność opisu, wykraczającą poza zastosowanie prostego słownika kontrolowanego? Podobne problemy znaleźć możemy w opisywaniu materialności zbiorów (rozmiary, materiały, pochodzenie) czy przypisywaniu ich autorstwa.

Próbą ograniczania subiektywności danych jest standaryzacja - kolory opisujemy zawsze w ten sam sposób i wyliczamy je w ten sam sposób, nazwiska twórców i twórczyń zapisujemy zgodnie z ogólnymi wytycznymi, które stosowane są też w innych instytucjach itp. Standaryzacja jest konieczna, choćby dlatego, że oprogramowanie - przynajmniej w dużej części - nie jest w stanie skutecznie identyfikować ze sobą identycznych wartości, które są jednak różnie zapisywane. Przykładowo, w słowniku kontrolowanym Union List of Artist Names Pablo Picasso jako autor zapisywany jest na kilkanaście różnych sposób - dla części systemów (np. wyszukiwarek), będą to zupełnie różne osoby. Częściowym rozwiązaniem tego problemu może być stosowanie stałych identyfikatorów - np. identyfikatora Wikidanych - element Wikidanych Q5593 to dla komputerów czytelna reprezentacja Picassa, bez względu na to, jaki zapis jego imienia i nazwiska moglibyśmy zastosować. Takie podejście określamy jako linked data.

Luther wskazuje też, że

jednym z głównych wyzwań w tworzeniu oprogramowania dla danych kulturowych jest to, że informacje o obiektach kulturowych są albo nieudokumentowane, albo podane przez osoby, które postrzegają te informacje jako dane do analizy komputerowej. Prowadzi to do rozbieżności w informacjach zawartych w bazach danych, które są przeznaczone z jednej strony dla ludzi, a z drugiej dla maszyn.

Dobrym przykładem tego problemu może być baza, opisująca emocje na kolekcji renesansowych portretów. Dane zbudowane maszynowo z wykorzystaniem narzędzi do analizy twarzy pozwalają nam na robienie zaawansowanych kwerend i wytrenowanie modelu, który pozwoliłby w automatyczny sposób rozpoznawać emocje na kolejnych zbiorach. Jednak czy metoda rozpoznawania emocji na źródłowych zbiorach brała pod uwagę np. konwencje gatunkowe lub inne cechy wizualne, które dostrzegalne są wyłącznie w bezpośrednim kontakcie z danym obrazem i dzięki wiedzy o kontekście jego powstania (close reading)? Jak bardzo jesteśmy w stanie ograniczyć katalog emocji, żeby dało się nim opisać nasz zbiór i znaleźć w nim jakieś podobne (pod kątem wyrażanych emocji) portrety?

W pracy z danymi kultury standaryzacja jest konieczna, ale może być też ograniczeniem: na pytanie, jak bardzo możemy ujednolicać opis rzeczywistości (kultury), która opisywana jest naszymi danymi, odpowiadają ontologie.

Akumulowanie danych

Zdaniem Luther, historia sztuki, bazująca na wydarzeniach i obiektach, może zyskać nową perspektywę, jeśli zacznie korzystać z danych. Oczywiście dane nie są celem samym w sobie - wytwarza się je i wykorzystuje po to, aby wzbogacać opis i interpretację obiektów o nowe informacje i umieszczać je w nowych kontekstach. Ostatecznie bowiem - na co zwraca uwagę Luther - wszystkie te dane kierują do wizerunku obiektu, który jest centralnym punktem odniesienia.

Wartość danych kultury ujawnia się też w momencie łączenia ich ze sobą. Dane, pozyskane z jednej instytucji, mogą być uzupełnione danymi z innej, skorzystać można też z uniwersalnych baz takich jak Wikidane czy narzędzi takich jak te do geokodowania (czyli przetwarzania wyrażonych za pomocą ciągów tekstowych adresów i opisów lokalizacji w koordynaty geograficzne).

Jak pisze Luther, obiekty w zbiorach GLAM mogą być kształtowane (uzupełniane, wyjaśniane) przez metody cyfrowe pozwalające na ich kontekstualizację, opisywanie i dokumentowanie.

Udostępnianie danych instytucji kultury - przykłady

Zobaczmy teraz, w jaki sposób instytucje kultury mogą udostępniać swoje dane:

Instytucje GLAM udostępniać mogą swoje dane bezpośrednio (np. jako pliki CSV czy XML) w repozytoriach danych, niekiedy w ramach specjalnych projektów badawczych (tak jak w przypadku zestawu danych DEArt), lub za pomocą specjalnych interfejsów - czy to w ramach witryn internetowych (Museum Data Service), czy za pomocą interfejsów programistycznych (API).

Skorzystanie z metod web scrapingu pozwala natomiast traktować wszystkie muzea, biblioteki i archiwa jako gotowe repozytoria danych kultury, nawet jeśli warstwa danych nie jest tam udostępniana w osobny sposób.

Podsumowanie

Biblioteki, archiwa i muzea to źródła danych kulturowych. Pozyskanie tych danych i łączenie ich z innymi może być podstawą interesujących badań nad kulturą i dziedzictwem oraz funkcjonowaniem samych instytucji. Udostępnianie danych w odpowiedni sposób zwiększa też szansę na powstawanie nowych projektów ponownego wykorzystania zbiorów, chociaż ich planowanie i inkubacja wymagają środków finansowych i odpowiednich kompetencji. Oczywistym kontekstem udostępniania danych przez instytucje kultury jest też trenowanie modeli uczenia maszynowego.