Jak sztuczna inteligencja przekształca sekrety DNA w informacje medyczne ratujące życie
Nowy model sztucznej inteligencji wykorzystuje dogłębną naukę, aby zrozumieć wiązanie czynników transkrypcyjnych z DNA, skupiając się na procesie oddychania DNA. To innowacyjne podejście doprowadziło do poprawy o 9,6% w przewidywaniu wiązań czynników transkrypcyjnych, oferując szczegółowe informacje, które mogłyby zrewolucjonizować opracowywanie leków i badania genomiczne.
Badacze z Los Alamos National Laboratory opracowali przełomowy model dogłębnej nauki stworzonego do analizowania skomplikowanego związku między czynnikami transkrypcyjnymi a aktywnością gen Zdjęcie: scitechdaily.com
Rewolucyjny model sztucznej inteligencji na potrzeby badań nad chorobami
Aby lepiej zrozumieć rolę DNA w chorobach, naukowcy z Los Alamos National Laboratory opracowali EPBDxDNABERT-2, pionierski multimodalny model dogłębnej nauki. Model ten jest stworzony, aby dokładnie identyfikować oddziaływania między czynnikami transkrypcyjnymi – proteiny, które regulują aktywność genów – a DNA. EPBDxDNABERT-2 wykorzystuje proces znany jako „oddychanie DNA”, gdzie podwójna helisa DNA spontanicznie otwiera się i zamyka, pozwalając modelowi uchwycić tę subtelną dynamikę. Ta zdolność może potencjalnie ulepszyć opracowywanie leków na choroby zakorzenione w aktywności genów.
„Istnieje wiele rodzajów czynników transkrypcyjnych, a ludzki genom jest niewyobrażalnie wielki” - wyjaśnia Anowarul Kabir, badacz z Los Alamos oraz główny autor badania. „Niezbędne jest więc ustalenie, jaki czynnik transkrypcyjny wiąże się z którym miejscem na niewiarygodnie długiej strukturze DNA. Próbowaliśmy rozwiązać ten problem za pomocą sztucznej inteligencji, w szczególności algorytmy dogłębnej nauki”.
Usprawnianie opracowywania leków za pomocą dynamiki DNA
DNA składające się z równowartości 3 miliardów angielskich liter w każdej ludzkiej komórce działa jako plan wzrostu i funkcji. Czynniki transkrypcyjne wiążą się z regionami DNA, regulując ekspresję genu – jak geny kierują rozwojem i funkcjonowaniem komórek. Ta regulacja odgrywa rolę w chorobach, takich jak rak, więc dokładne przewidywanie miejsc wiązania czynnika transkrypcyjnego może mieć znaczący wpływ na opracowywanie leków.
Model podstawowy wykorzystany przez zespół badaczy został przećwiczony na sekwencjach DNA. Zespół stworzył program symulacji DNA, który wychwytuje liczne dynamiki DNA i zintegrował go z modelem podstaw genomowych, w wyniku czego powstał EPBDxDNABERT-2 będący w stanie przetwarzać sekwencje genomu między chromosomami i włączając odpowiednią dynamikę DNA jako dane wejściowe. Jedno z takich danych wejściowych, oddychanie DNA lub lokalne i spontaniczne otwieranie i zamykanie struktury podwójnej helisy DNA koreluje z aktywnością transkrypcyjną, taką jak wiązanie czynnika transkrypcyjnego.
„Integracja cech oddychania DNA z modelem podstawowym DNABERT-2 znacznie usprawniła przewidywania dotyczące wiązań czynników transkrypcyjnych” – mówi badacz z Los Alamos, Manish Bhattarai. „Podajemy odcinki kodu DNA jako dane wejściowe do modelu i pytamy model, czy wiąże się z czynnikiem transkrypcyjnym, czy nie, w wielu liniach komórkowych. Wyniki poprawiły predykcyjne prawdopodobieństwo wiązania określonych lokalizacji genów z wieloma czynnikami transkrypcyjnymi”.
Wykorzystywanie superkomputerów do analizy genomicznej
Zespół uruchomił swój model dogłębnej nauki na najnowszym superkomputerze laboratorium, Venado, który łączy centralną jednostkę z jednostką przetwarzania graficznego w celu napędzenia możliwości sztucznej inteligencji. Model dogłębnej nauki działa w podobny sposób jak sieci neuronowe mózgu, włączając obrazy i tekst oraz odkrywając złożone wzorce, aby generować przewidywania i spostrzeżenia.
Aby przećwiczyć model, zespół wykorzystał dane sekwencjonowania genów z 690 wyników eksperymentalnych obejmujących 161 odrębnych czynników transkrypcyjnych oraz 91 typów ludzkich komórek. Odkryli, że EPBDxDNABERT-2 znacznie się ulepsza - o 9,6% w jednym kluczowym wskaźniku – przewidywanie wiązań ponad 660 czynników transkrypcyjnych. Dalsze eksperymenty na zbiorach danych in vitro zaczerpnięte z eksperymentów w kontrolowanym środowisku uzupełniły zbiory danych In Nature lub dane zaczerpnięte bezpośrednio z badań na organizmach żywych, takich jak myszy.
Obietnica multimodalnej genomiki obliczeniowej
Zespół odkrył, że chociaż samo oddychanie DNA może oszacować aktywność transkrypcyjną niemalże dokładnie, multimodalny model może wyodrębnić motywy wiążące, określone sekwencje DNA, z którymi wiążą się czynniki transkrypcyjne – niezbędny element do wyjaśnienia procesów transkrypcji.
„Jak pokazuje jego wydajność w wielu zróżnicowanych zestawach danych, nasz multimodalny podstawowy model wykazuje wszechstronność, solidność i skuteczność” - mówi Bhattarai. „Ten model podkreśla znaczny postęp w genomice obliczeniowej, dostarczając wyrafinowane narzędzie do analizowania złożonych mechanizmów biologicznych”.
Odniesienie: „DNA breathing integration with deep learning foundational model advances genome-wide binding prediction of human transcription factors” stworzone przez Anowarul Kabir, Manish Bhattarai, Selma Peterson, Yonatan Najman-Licht, Kim Ø Rasmussen, Amarda Shehu, Alan R Bishop, Boian Alexandrov and Anny Usheva, 13 September 2024, Nucleic Acids Research.
Praca została wsparta przez National Institutes of Health oraz National Science Foundation.
Dział: Aktualności
Autor:
Los Alamos National Laboratory | Tłumaczenie: Daniel Czeleń - praktykant fundacji: https://fundacjaglosmlodych.org/praktyki/
Źródło:
https://scitechdaily.com/how-ai-is-turning-dna-secrets-into-lifesaving-medical-insights/