16.03.2024 JPM Redakcja

Plik tekstowy obsługujący Internet

Przez dziesięciolecia plik robots.txt kontrolował zachowanie robotów indeksujących. Jednak w miarę jak pozbawione skrupułów firmy zajmujące się sztuczną inteligencją poszukują coraz większej ilości danych, podstawowa umowa społeczna sieci rozpada się.

Przez dziesięciolecia plik robots.txt kontrolował zachowanie robotów indeksujących. Zdjęcie: Erik Carter.

Przez trzydzieści lat mały plik tekstowy chronił Internet przed chaosem. Ten plik tekstowy nie ma żadnych szczególnych uprawnień prawnych ani technicznych i nie jest nawet szczególnie skomplikowany. Stanowi uścisk dłoni pomiędzy niektórymi z pierwszych pionierów Internetu, mający na celu szanowanie wzajemnych życzeń i budowanie Internetu w sposób korzystny dla wszystkich. To mini konstytucja Internetu, napisana w kodzie.

Nazywa się on plikiem robots.txt i zwykle znajduje się pod adresem twojastrona internetowa.com/robots.txt. Dzięki temu plikowi każdy, kto prowadzi witrynę internetową — dużą lub małą, blog kulinarny lub międzynarodową korporację — może poinformować sieć, kto może wchodzić do sieci, a kto nie. Które wyszukiwarki mogą zaindeksować Twoją witrynę? Jakie projekty archiwalne mogą pobrać wersję Twojej strony i ją zapisać? Czy konkurenci mogą śledzić Twoje strony w poszukiwaniu własnych plików? Ty możesz podjąć decyzję i zadeklarować to w sieci.

Nie jest to system idealny, ale działa. W każdym razie kiedyś. Przez dziesięciolecia plik robots.txt skupiał się głównie na wyszukiwarkach; pozwoliłbyś im zeskrobać Twoją witrynę, a w zamian obiecaliby odesłać ludzi do Ciebie. Teraz sztuczna inteligencja zmieniła równanie: firmy w Internecie wykorzystują Twoją witrynę i zawarte w niej dane do tworzenia ogromnych zestawów danych szkoleniowych w celu tworzenia modeli i produktów, które mogą w ogóle nie potwierdzać Twojego istnienia.

Plik robots.txt reguluje dawanie i branie; Wielu uważa, że sztuczna inteligencja bierze i nie daje. Jednak obecnie na sztuczną inteligencję przeznacza się tak dużo pieniędzy, a stan technologii zmienia się tak szybko, że wielu właścicieli witryn nie jest w stanie nadążyć. Podstawowe porozumienie stojące za plikiem robots.txt i całym internetem – które przez tak długi czas sprowadzało się do hasła „wszyscy po prostu będą fajni” – również może nie być w stanie dotrzymać kroku.

W początkach Internetu roboty miały wiele nazw: pająki, roboty, robaki, WebAnty, roboty indeksujące. W większości przypadków budowano je z dobrymi intencjami. Zwykle był to programista próbujący zbudować katalog nowych, fajnych stron internetowych, upewnić się, że ich własna witryna działa poprawnie lub zbudować bazę danych badawczych — był to mniej więcej rok 1993, na długo przed pojawieniem się wyszukiwarek i w czasach, gdy można było się zmieścić większość Internetu na dysku twardym komputera.

Jedynym prawdziwym problemem był wówczas ruch: dostęp do Internetu był powolny i kosztowny zarówno dla osoby przeglądającej witrynę, jak i dla osoby ją hostującej. Jeśli hostowałeś swoją witrynę internetową na swoim komputerze, jak zrobiło to wiele osób, lub na pospiesznie skonstruowanym oprogramowaniu serwerowym działającym za pośrednictwem domowego połączenia internetowego, wystarczyło, że kilka robotów nadgorliwie pobierało Twoje strony, aby wszystko się zepsuło, a rachunek telefoniczny wzrósł.

W ciągu kilku miesięcy 1994 roku inżynier i programista Martijn Koster wraz z grupą innych administratorów i programistów sieci WWW opracowali rozwiązanie, które nazwali protokołem wykluczania robotów. Propozycja była dość prosta: prosiła twórców stron internetowych o dodanie do ich domeny zwykłego pliku tekstowego, określającego, które roboty nie mogą przeszukiwać ich witryny, lub wyświetlającego listę stron, które są niedostępne dla wszystkich robotów. (Ponownie był to czas, kiedy można było prowadzić listę wszystkich istniejących robotów — Koster i kilka innych osób właśnie to zrobiło z pomocą). Dla twórców robotów sprawa była jeszcze prostsza: przestrzeganie życzeń zawartych w pliku tekstowym.

Koster od początku dawał jasno do zrozumienia, że nie nienawidzi robotów i nie ma zamiaru się ich pozbywać. „Roboty to jeden z niewielu aspektów sieci, który powoduje problemy operacyjne i smutek ludzi” – stwierdził w pierwszym e-mailu do listy mailingowej o nazwie WWW-Talk (która obejmowała pionierów wczesnego Internetu, takich jak Tim Berners-Lee i Marc Andreessen ) na początku 1994 r. „Jednocześnie świadczą przydatne usługi”. Koster przestrzegł przed kłótniami na temat tego, czy roboty są dobre, czy złe – ponieważ to nie ma znaczenia, one tu są i nie odejdą. Próbował po prostu zaprojektować system, który mógłby „zminimalizować problemy i może zmaksymalizować korzyści”.

„Roboty to jeden z niewielu aspektów sieci, który powoduje problemy operacyjne. Jednocześnie świadczą przydatne usługi.”

Latem tego roku jego propozycja stała się standardem – nie oficjalnym, ale mniej więcej powszechnie akceptowanym. W czerwcu Koster ponownie wysłał ping do grupy WWW-Talk z aktualizacją. „W skrócie jest to metoda wyprowadzania robotów z określonych obszarów przestrzeni adresów URL serwera internetowego poprzez umieszczenie na serwerze prostego pliku tekstowego” – napisał. „Jest to szczególnie przydatne, jeśli masz duże archiwa, skrypty CGI z ogromnymi poddrzewami adresów URL, informacje tymczasowe lub po prostu nie chcesz obsługiwać robotów”. Założył tematyczną listę mailingową, której członkowie zgodzili się na podstawową składnię i strukturę plików tekstowych, zmienił nazwę pliku z RobotsNotWanted.txt na prosty plik robots.txt i prawie wszyscy zgodzili się to wspierać.

Przez większość następnych 30 lat sprawdzało się to całkiem nieźle, ale Internet nie mieści się już na dysku twardym, a roboty są znacznie potężniejsze. Google używa ich do przeszukiwania i indeksowania całej sieci na potrzeby swojej wyszukiwarki, która stała się interfejsem do sieci i przynosi firmie miliardy dolarów rocznie. Roboty Bing robią to samo, a Microsoft udziela licencji na swoją bazę danych innym wyszukiwarkom i firmom. Archiwum internetowe wykorzystuje robota do przechowywania stron internetowych dla potomności. Roboty Amazona przemierzają sieć w poszukiwaniu informacji o produktach, a według niedawnego pozwu antymonopolowego firma wykorzystuje te informacje do karania sprzedawców, którzy oferują lepsze oferty poza Amazonem. Firmy zajmujące się sztuczną inteligencją, takie jak OpenAI, przeszukują sieć, aby wytrenować duże modele językowe, które mogą po raz kolejny zasadniczo zmienić sposób, w jaki uzyskujemy dostęp do informacji i udostępniamy je.

Możliwość pobierania, przechowywania, organizowania i przeglądania współczesnego Internetu daje każdej firmie lub programiście coś w rodzaju wiedzy zgromadzonej na świecie. Mniej więcej w ciągu ostatniego roku rozwój produktów AI, takich jak ChatGPT, oraz leżących u ich podstaw dużych modeli językowych sprawił, że wysokiej jakości dane szkoleniowe stały się jednym z najcenniejszych towarów w Internecie. To spowodowało, że wszelkiego rodzaju dostawcy Internetu ponownie rozważyli wartość danych na swoich serwerach i przemyśleli, kto może uzyskać do czego dostęp. Zbyt liberalne podejście może pozbawić Twoją witrynę internetową całej jej wartości; zbyt restrykcyjne podejście może sprawić, że będziesz niewidoczny. I musisz cały czas dokonywać tego wyboru, mając do czynienia z nowymi firmami, nowymi partnerami i nowymi stawkami.

Istnieje kilka ras robotów internetowych. Możesz zbudować zupełnie niewinną stronę, po której będziesz się czołgać i upewnić się, że wszystkie linki na stronie nadal prowadzą do innych aktywnych stron; możesz wysłać znacznie bardziej szkicowy plik po Internecie, zbierając każdy adres e-mail i numer telefonu, jaki znajdziesz. Jednak najpopularniejszym i obecnie najbardziej kontrowersyjnym jest prosty robot indeksujący. Jego zadaniem jest znalezienie i pobranie jak największej części Internetu.

Roboty indeksujące są na ogół dość proste. Zaczynają od dobrze znanej strony internetowej, takiej jak cnn.com, wikipedia.org lub health.gov. (Jeśli prowadzisz wyszukiwarkę ogólną, zaczniesz od wielu wysokiej jakości domen o różnej tematyce; jeśli interesują Cię tylko sport lub samochody, zaczniesz po prostu od witryn motoryzacyjnych). Robot pobiera to pierwszą stronę i gdzieś ją przechowuje, następnie automatycznie klika każdy link na tej stronie, pobiera je wszystkie, klika wszystkie linki na każdym z nich i w ten sposób rozprzestrzenia się po sieci. Mając wystarczająco dużo czasu i wystarczających zasobów obliczeniowych, robot indeksujący w końcu znajdzie i pobierze miliardy stron internetowych.

Kompromis jest dość prosty: jeśli Google może zaindeksować Twoją stronę, może ją zaindeksować i wyświetlić w wynikach wyszukiwania.

W 2019 r. Google oszacowało, że ponad 500 milionów witryn internetowych miało stronę robots.txt określającą, czy i do czego te roboty mogą uzyskać dostęp. Struktura tych stron jest zwykle mniej więcej taka sama: nazywa się ją „agentem użytkownika”, który odnosi się do nazwy, której używa robot indeksujący, identyfikując się z serwerem. Agentem Google jest Googlebot; Amazon to Amazonbot; Bing to Bingbot; OpenAI to GPTBot. Pinterest, LinkedIn, Twitter i wiele innych witryn i usług ma własne boty, z których nie wszystkie są wspomniane na każdej stronie. ( Wikipedia i Facebook to dwie platformy o szczególnie dokładnym rozliczaniu robotów.) Poniżej strona robots.txt zawiera listę sekcji lub stron witryny, do których dany agent nie ma dostępu, wraz z konkretnymi dozwolonymi wyjątkami. Jeśli w wierszu znajduje się tylko informacja „Disallow: /”, robot nie jest w ogóle mile widziany.

Minęło trochę czasu, odkąd „przeciążone serwery” były prawdziwym problemem dla większości ludzi. „Obecnie mniej liczą się zasoby wykorzystywane w witrynie, a bardziej osobiste preferencje” – mówi John Mueller, zwolennik wyszukiwania w Google. „Co chcesz przeszukać i zaindeksować i co jeszcze?”

Najważniejszym pytaniem, na które w przeszłości musiała odpowiedzieć większość właścicieli witryn, było to, czy pozwolić Googlebotowi na indeksowanie ich witryny. Kompromis jest dość prosty: jeśli Google może zaindeksować Twoją stronę, może ją zaindeksować i wyświetlić w wynikach wyszukiwania. Googlebot musi zobaczyć każdą stronę, którą chcesz udostępnić Google. (Jak i gdzie Google faktycznie wyświetla tę stronę w wynikach wyszukiwania, to oczywiście zupełnie inna historia.) Pytanie brzmi, czy chcesz pozwolić Google pochłonąć część Twojego pasma i pobrać kopię Twojej witryny w zamian za widoczność, która pochodzi z wyszukiwania.

W przypadku większości stron internetowych była to łatwa transakcja. „Google to nasz najważniejszy pająk” – mówi dyrektor generalny Medium, Tony Stubblebine. Google może pobrać wszystkie strony Medium, „a w zamian otrzymujemy znaczny ruch. To korzystna sytuacja. Wszyscy tak myślą.” Jest to okazja, jaką Google zawarł z całym Internetem, aby przekierować ruch do innych witryn internetowych, jednocześnie sprzedając reklamy w wynikach wyszukiwania. Pod każdym względem Google jest dobrym obywatelem pliku robots.txt. „Prawie wszystkie znane wyszukiwarki są z nim zgodne” – mówi Mueller z Google. „Cieszą się, że mogą indeksować sieć, ale nie chcą tym denerwować ludzi… to po prostu ułatwia wszystkim życie”.

Jednak mniej więcej w ciągu ostatniego roku rozwój sztucznej inteligencji wywrócił to równanie do góry nogami. Dla wielu wydawców i platform indeksowanie ich danych w celu uzyskania danych szkoleniowych wydawało się mniej przypominać handel, a bardziej kradzież. „W przypadku firm zajmujących się sztuczną inteligencją dość szybko odkryliśmy, że” – mówi Stubblebine – „nie tylko nie była to wymiana wartości, ale nie dostaliśmy nic w zamian. Dosłownie zero.” Kiedy jesienią ubiegłego roku Stubblebine ogłosił, że Medium będzie blokować roboty indeksujące AI , napisał, że „firmy zajmujące się sztuczną inteligencją wysysały wartość z autorów, aby spamować czytelników Internetu”.

W ciągu ostatniego roku duża część branży medialnej podzielała opinię Stubblebine’a. „Nie wierzymy, że obecne „skrobanie” danych BBC bez naszej zgody w celu szkolenia modeli AI Gen AI leży w interesie publicznym” – napisał jesienią ubiegłego roku dyrektor BBC ds. narodów Rhodri Talfan Davies , ogłaszając, że BBC będzie również blokować OpenAI. „The New York Times” również zablokował GPTBot na kilka miesięcy przed wniesieniem pozwu przeciwko OpenAI, twierdząc, że modele OpenAI „zostały zbudowane poprzez kopiowanie i wykorzystywanie milionów artykułów prasowych chronionych prawem autorskim The Times , szczegółowych badań, opinii, recenzji, poradników, przewodników i nie tylko.” Badanie przeprowadzone przez Bena Welsha , redaktora aplikacji informacyjnych w Reuters wykazało, że 606 z 1156 ankietowanych wydawców zablokowało GPTBot w swoim pliku robots.txt.

Nie chodzi tu tylko o wydawców. Amazon, Facebook, Pinterest, WikiHow, WebMD i wiele innych platform wyraźnie blokują GPTBotowi dostęp do niektórych lub wszystkich ich stron internetowych. Na większości stron w pliku robots.txt GPTBot OpenAI jest jedynym robotem, który jest wyraźnie i całkowicie zabroniony. Jednak w sieci zaczyna przeszukiwać wiele innych botów zajmujących się sztuczną inteligencją, takich jak anthropic-ai firmy Anthropic i nowy Google-Extended firmy Google. Według badania przeprowadzonego jesienią ubiegłego roku przez Originality.AI, 306 z 1000 najpopularniejszych witryn w Internecie zablokowało GPTBot, ale tylko 85 zablokowało Google-Extended i 28 zablokowało anthropic-ai.

Istnieją również roboty indeksujące używane zarówno do wyszukiwania w Internecie, jak i sztucznej inteligencji. CCBot prowadzony przez organizację Common Crawl przeszukuje sieć na potrzeby wyszukiwarek, ale jego dane są również wykorzystywane przez OpenAI, Google i inne firmy do uczenia swoich modeli. Bingbot firmy Microsoft jest zarówno robotem wyszukiwania, jak i robotem AI. A to tylko roboty, które się identyfikują — wiele innych próbuje działać we względnej tajemnicy, co utrudnia ich zatrzymanie lub nawet odnalezienie w morzu innego ruchu internetowego. W przypadku każdej wystarczająco popularnej witryny internetowej znalezienie podstępnego robota to kwestia igły w stogu siana.

W dużej mierze GPTBot stał się głównym złoczyńcą pliku robots.txt, ponieważ OpenAI na to pozwoliło. Firma opublikowała i promowała stronę dotyczącą blokowania GPTBota oraz zbudowała swojego robota tak, aby głośno identyfikował się za każdym razem, gdy zbliża się do witryny internetowej. Oczywiście zrobił to wszystko po przeszkoleniu podstawowych modeli, które uczyniły go tak potężnym, i dopiero wtedy, gdy stał się ważną częścią ekosystemu technologicznego. Jednak dyrektor ds. strategii OpenAI, Jason Kwon, twierdzi, że w pewnym sensie o to właśnie chodzi. „Jesteśmy graczem w ekosystemie” – mówi. „Jeśli chcesz uczestniczyć w tym ekosystemie w sposób otwarty, to jest to handel wzajemny, który interesuje wszystkich”. Bez tego handlu, mówi, sieć zaczyna się wycofywać, zamykać — a to jest złe dla OpenAI i wszystkich. „Robimy to wszystko, aby sieć pozostała otwarta”.

Domyślnie protokół wykluczania robotów zawsze był zezwalający. Uważa, podobnie jak Koster 30 lat temu, że większość robotów jest dobra i są tworzone przez dobrych ludzi, dlatego domyślnie je dopuszcza. To było, w zasadzie, właściwe wezwanie. „Uważam, że Internet jest zasadniczo istotą społeczną” – mówi Kwon z OpenAI – „i wydaje się, że ten uścisk dłoni, który utrzymywał się przez wiele dziesięcioleci, zadziałał”. Jego zdaniem rola OpenAI w dotrzymaniu tej umowy obejmuje zapewnienie bezpłatnego dostępu do ChatGPT dla większości użytkowników – w ten sposób dostarczając tę wartość z powrotem – i poszanowanie zasad robotów.

Jednak plik robots.txt nie jest dokumentem prawnym i 30 lat od jego utworzenia nadal opiera się na dobrej woli wszystkich zaangażowanych stron.

Zablokowanie bota na stronie robots.txt jest jak umieszczenie napisu „Zakaz dziewczynom” na domku na drzewie — wysyła wiadomość, ale nie obroni się w sądzie. Każdy robot, który chce zignorować plik robots.txt, może po prostu to zrobić, bez obawy przed konsekwencjami. (Ogólnie istnieje pewien precedens prawny dotyczący skrobania sieci, chociaż nawet to może być skomplikowane i w większości przypadków polega na dopuszczeniu przeszukiwania i skrobania). Na przykład Internet Archive po prostu ogłosiło w 2017 r., że nie przestrzega już zasad plik robots.txt. „Z biegiem czasu zaobserwowaliśmy, że pliki robots.txt przeznaczone dla robotów indeksujących wyszukiwarki niekoniecznie służą naszym celom archiwalnym” – napisał wówczas Mark Graham, dyrektor Wayback Machine w Internet Archive.

W miarę jak firmy zajmujące się sztuczną inteligencją stale się rozmnażają, a ich roboty stają się coraz bardziej pozbawione skrupułów, każdy, kto chce przeczekać przejęcie sztucznej inteligencji, musi wziąć udział w niekończącej się grze w whac-a-mole. Muszą zatrzymać każdego robota z osobna, jeśli to w ogóle możliwe, licząc się jednocześnie ze skutkami ubocznymi. Jeśli sztuczna inteligencja rzeczywiście jest przyszłością wyszukiwania, jak przewidywali Google i inni, blokowanie robotów indeksujących AI może być nie krótkotrwałym sukcesem, ale długoterminową katastrofą.

Po obu stronach są ludzie, którzy uważają, że potrzebujemy lepszych, silniejszych i sztywniejszych narzędzi do zarządzania robotami indeksującymi. Twierdzą, że w grę wchodzą zbyt duże pieniądze oraz zbyt wiele nowych i nieuregulowanych przypadków użycia, aby polegać na tym, że wszyscy zgodzą się postąpić właściwie. „Chociaż wiele podmiotów ma pewne zasady regulujące korzystanie z robotów indeksujących” – napisali dwaj prawnicy zajmujący się technologią w artykule z 2019 r. na temat legalności robotów indeksujących – „zasady jako całość są zbyt słabe, a pociągnięcie ich do odpowiedzialności jest zbyt trudne .”

Niektórzy wydawcy woleliby bardziej szczegółową kontrolę nad tym, co jest indeksowane i do czego jest wykorzystywane, zamiast ogólnych uprawnień „tak” lub „nie” w pliku robots.txt. Firma Google, która kilka lat temu podjęła wysiłki, aby uczynić protokół wykluczania robotów oficjalnym, sformalizowanym standardem, również nalegała, aby zmniejszyć nacisk na plik robots.txt, uzasadniając to tym, że jest to stary standard i zbyt wiele witryn nie zwraca na to uwagi. „Wiemy, że istniejące mechanizmy kontroli wydawców internetowych zostały opracowane przed pojawieniem się nowych przypadków użycia sztucznej inteligencji i badań” – napisała w zeszłym roku wiceprezes Google ds. zaufania, Danielle Romain . „Uważamy, że nadszedł czas, aby społeczności internetowe i sztuczna inteligencja zbadały dodatkowe, czytelne maszynowo środki umożliwiające wydawcom internetowym wybór i kontrolę w przypadku pojawiających się przypadków użycia sztucznej inteligencji i badań”.

Nawet gdy firmy zajmujące się sztuczną inteligencją stoją przed pytaniami regulacyjnymi i prawnymi dotyczącymi sposobu budowania i trenowania swoich modeli, modele te są nadal udoskonalane i wydaje się, że każdego dnia powstają nowe firmy. Strony internetowe duże i małe stają przed decyzją: poddać się rewolucji AI lub przeciwstawić się jej. Dla tych, którzy zdecydują się zrezygnować, ich najpotężniejszą bronią jest porozumienie zawarte trzydzieści lat temu przez pierwszych i najbardziej optymistycznych prawdziwych wyznawców Internetu. Wierzyli, że internet to dobre miejsce, pełne dobrych ludzi, którzy przede wszystkim chcieli, żeby internet był czymś dobrym. W tamtym świecie i w tamtym Internecie wyjaśnienie swoich życzeń w pliku tekstowym wystarczyło. Teraz, gdy sztuczna inteligencja ma ponownie zmienić kulturę i ekonomię Internetu, skromny plik tekstowy zaczyna wyglądać nieco staroświecko.

Dział: Informatyka

Autor:
David Pierce | Tłumaczenie: Kacper Sobierajski

Źródło:
Źródło: https://www.theverge.com/24067997/robots-txt-ai-text-file-web-crawlers-spiders