Oto jak uczenie maszynowe może naruszać Twoją prywatność
Uczenie maszynowe posunęło granice w kilku dziedzinach, w tym w medycynie spersonalizowanej, samochodach autonomicznych i dostosowanych reklamach. Badania wykazały jednak, że te systemy zapamiętują elementy danych, na których były trenowane, aby nauczyć się wzorców, co budzi obawy dotyczące prywatności.
Zdjęcie: DepositPhotos
W statystyce i uczeniu maszynowym celem jest nauka na podstawie danych z przeszłości, aby dokonywać nowych prognoz lub wniosków na temat danych przyszłych. Aby osiągnąć ten cel, statystyk lub ekspert w dziedzinie uczenia maszynowego wybiera model, który uchwyci przypuszczalne wzorce w danych. Model stosuje uproszczoną strukturę do danych, co umożliwia naukę wzorców i dokonywanie prognoz.
Złożone modele uczenia maszynowego mają pewne wrodzone zalety i wady. Z jednej strony mogą one nauczyć się znacznie bardziej złożonych wzorców i pracować z bardziej rozbudowanymi zestawami danych do zadań takich jak rozpoznawanie obrazów czy przewidywanie, jak konkretna osoba zareaguje na leczenie.
Jednak mają one również ryzyko nadmiernego dopasowania do danych. Oznacza to, że dokładnie przewidują dane, na których były trenowane, ale zaczynają uczyć się dodatkowych aspektów danych, które nie są bezpośrednio związane z wykonywanym zadaniem. Prowadzi to do modeli, które nie są uogólnione, co oznacza, że mają słabe wyniki na nowych danych tego samego typu, ale nie identycznych z danymi treningowymi.
Chociaż istnieją techniki, które rozwiązują problem błędu predykcji związanego z nadmiernym dopasowaniem, istnieją także obawy dotyczące prywatności związane z możliwością nauczenia się tak wielu rzeczy z danych.
Jak algorytmy uczenia maszynowego dokonują wniosków
Każdy model ma określoną liczbę parametrów. Parametr to element modelu, który może zostać zmieniony. Każdy parametr ma wartość lub ustawienie, które model czerpie z danych treningowych. Parametry można traktować jako różne „pokontrolki”, które można dostosować, aby wpłynąć na działanie algorytmu. Podczas gdy prosty wzór liniowy ma tylko dwa parametry, nachylenie i punkt przecięcia, modele uczenia maszynowego mają ich znacznie więcej. Na przykład model językowy GPT-3 ma ich 175 miliardów.
Aby wybrać parametry, metody uczenia maszynowego wykorzystują dane treningowe, mając na celu zminimalizowanie błędu predykcji na tych danych. Na przykład, jeśli celem jest przewidzenie czy osoba zareaguje dobrze na określoną terapię medyczną na podstawie jej historii medycznej, model uczenia maszynowego dokona predykcji na danych, gdzie twórcy modelu wiedzą, czy dana osoba zareagowała dobrze, czy źle. Model jest nagradzany za poprawne przewidywania i karany za błędne, co sprawia, że algorytm dostosowuje swoje parametry – czyli „przekręca” niektóre z „pokrotników” – i próbuje ponownie.
Aby uniknąć nadmiernego dopasowania do danych treningowych, modele uczenia maszynowego są także sprawdzane za pomocą zestawu danych walidacyjnych. Zestaw danych walidacyjnych to oddzielny zbiór danych, który nie jest używany w procesie treningowym. Sprawdzając wydajność modelu uczenia maszynowego na tym zestawie danych walidacyjnych, deweloperzy mogą upewnić się, że model jest w stanie uogólnić swoją naukę na dane wykraczające poza dane treningowe, co pozwala uniknąć nadmiernego dopasowania. Choć ten proces zapewnia dobrą wydajność modelu uczenia maszynowego, nie zapobiega bezpośrednio zapamiętywaniu informacji zawartych w danych treningowych przez model.
Obawy dotyczące prywatności
Z powodu dużej liczby parametrów w modelach uczenia maszynowego, istnieje możliwość, że metoda uczenia maszynowego zapamięta niektóre dane, na których była trenowana. W rzeczywistości jest to powszechne zjawisko, a użytkownicy mogą wydobyć zapamiętane dane z modelu uczenia maszynowego, korzystając z zapytań dostosowanych do uzyskania tych danych.
Jeśli dane treningowe zawierają wrażliwe informacje, takie jak dane medyczne lub genotypowe, prywatność osób, których dane zostały użyte do trenowania modelu, może zostać zagrożona. Niedawne badania pokazały, że rzeczywiście konieczne jest, aby modele uczenia maszynowego zapamiętywały pewne aspekty danych treningowych, aby uzyskać optymalną wydajność w rozwiązywaniu określonych problemów. Wskazuje to na fundamentalny kompromis między wydajnością metody uczenia maszynowego a prywatnością.
Modele uczenia maszynowego mogą także przewidywać wrażliwe informacje na podstawie pozornie niewrażliwych danych. Na przykład, firma Target była w stanie przewidzieć, które klientki prawdopodobnie były w ciąży, analizując zwyczaje zakupowe klientów, którzy zarejestrowali się w baby registry Target. Po przeszkoleniu modelu na tym zestawie danych, firma była w stanie wysyłać reklamy związane z ciążą do klientów, które podejrzewała, że są w ciąży, ponieważ kupowały produkty takie jak suplementy czy bezzapachowe balsamy.
Czy ochrona prywatności jest w ogóle możliwa?
Mimo że zaproponowano wiele metod ograniczających zapamiętywanie w metodach uczenia maszynowego, większość z nich okazała się w dużej mierze nieskuteczna. Obecnie najbardziej obiecującym rozwiązaniem tego problemu jest wprowadzenie matematycznego ograniczenia ryzyka naruszenia prywatności.
Stanowiącym najnowocześniejszą metodę formalnej ochrony prywatności jest prywatność różnicowa. Prywatność różnicowa wymaga, aby model uczenia maszynowego nie zmieniał się znacznie, gdy dane jednej osoby są zmieniane w zestawie danych treningowych. Metody prywatności różnicowej osiągają tę gwarancję poprzez wprowadzenie dodatkowej losowości do procesu uczenia algorytmu, która „ukrywa” wkład konkretnej osoby. Po zastosowaniu metody ochrony prywatności różnicowej, żaden możliwy atak nie może naruszyć tej gwarancji prywatności.
Nawet jeśli model uczenia maszynowego jest trenowany z użyciem prywatności różnicowej, nie zapobiega to jednak dokonywaniu wrażliwych wniosków, takich jak w przykładzie firmy Target. Aby zapobiec tym naruszeniom prywatności, wszystkie dane przesyłane do organizacji muszą być chronione. To podejście nazywa się lokalną prywatnością różnicową, a firmy takie jak Apple i Google wdrożyły je w swoich systemach.
Ponieważ prywatność różnicowa ogranicza, jak bardzo model uczenia maszynowego może polegać na danych jednej osoby, zapobiega to zapamiętywaniu. Niestety, ogranicza to także wydajność metod uczenia maszynowego. Z tego powodu istnieją krytyki użyteczności prywatności różnicowej, ponieważ często prowadzi to do znaczącego spadku wydajności.
Patrząc w przyszłość
Z powodu napięcia między uczeniem inferencyjnym a obawami o prywatność, ostatecznie pojawia się społeczne pytanie, co jest ważniejsze w jakich kontekstach. Kiedy dane nie zawierają wrażliwych informacji, łatwo jest zalecić korzystanie z najpotężniejszych metod uczenia maszynowego.
Jednak w przypadku pracy z danymi wrażliwymi ważne jest rozważenie konsekwencji wycieków prywatności i może być konieczne poświęcenie części wydajności uczenia maszynowego, aby chronić prywatność osób, których dane posłużyły do treningu modelu.
Dział: Technologia
Autor:
Jordan Awan | Tłumaczenie: Mateusz Bujnowski - praktykant fundacji https://fundacjaglosmlodych.org/praktyki/
Źródło:
https://theconversation.com/heres-how-machine-learning-can-violate-your-privacy-226299