Hogyan segítik a számítógépek a biológusokat az élet titkainak feltörésében

Miután a hárommilliárd betű hosszú emberi genom szekvenálódott, új „omika”A biológiai kutatások korszaka. A tudósok most versenyeznek a különféle organizmusok genomjainak (az összes gén) vagy a fehérjék (az összes fehérje) szekvenciájának szekvenálásával - és közben hatalmas mennyiségű adatot állítanak össze.

Például egy tudós "omics" eszközöket, például DNS -szekvenálást használhat, hogy megtudja, mely emberi gének érintettek egy vírusos influenza -fertőzésben. De mivel az emberi genomban összesen legalább 25,000 XNUMX gén található, a gének száma még egy ilyen egyszerű forgatókönyv mellett is több ezerre tehető.

Bár a gének és fehérjék szekvenálása és azonosítása nevet és helyet ad számukra, nem árulja el, mit csinálnak. Meg kell értenünk, hogy ezek a gének, fehérjék és minden cucc közte kölcsönhatásba lépnek a különböző biológiai folyamatokban.

Ma már az alapvető kísérletek is nagy adatokat hoznak, és az egyik legnagyobb kihívás a releváns eredmények szétválasztása a háttérzajból. A számítógépek segítenek legyőzni ezt az adathegyet; de akár egy lépéssel tovább is léphetnek ennél, segítve a tudományos hipotézisek előállítását és az új biológiai folyamatok megmagyarázását. Az adattudomány lényegében lehetővé teszi az élvonalbeli biológiai kutatásokat.

Számítógépek a mentéshez

A számítógépek egyedi képzettséggel rendelkeznek a hatalmas adathalmazok kezelésére, mivel egyidejűleg nyomon követhetik az elemzéshez szükséges minden fontos feltételt.


belső feliratkozási grafika


Pedig ők emberi hibákat tükrözhet programozva vannak, a számítógépek nagy mennyiségű adatot képesek hatékonyan kezelni, és nem elfogultak az ismerősök felé, mint az emberi nyomozók.

A számítógépeket arra is meg lehet tanítani, hogy keressenek konkrét mintákat a kísérleti adathalmazokban - a gépi tanulásnak nevezett fogalmat, amelyet először az 1950 -es években javasoltak, különösen matematikus Alan Turing. Egy algoritmus, amely megtanulta a mintákat az adatkészletekből, felkérhető arra, hogy jósoljon az új adatok alapján, amelyekkel még soha nem találkozott.

A gépi tanulás forradalmasította a biológiai kutatást, mióta már használhatjuk a nagy adathalmazokat, és megkérhetjük a számítógépeket, hogy segítsenek megérteni a mögöttes biológiát.

A számítógépek gondolkodásra nevelése az agyi folyamatok szimulálásával

A saját laboratóriumunkban használtunk egy érdekes típusú gépi tanulást, az úgynevezett mesterséges neurális hálózatot (ANN). Az agyak szorosan összekapcsolt neuronhálózatok, amelyek elektromos impulzusok küldésével kommunikálnak az idegvezetékeken keresztül. Hasonlóképpen, az ANN szimulálja a számítógépben a neuronok hálózatát, amikor azok be- és kikapcsolnak más neuronok jeleire reagálva.

A valódi idegsejtek folyamatait utánzó algoritmusok alkalmazásával megtaníthatjuk a hálózatot sokféle probléma megoldására. A Google erőteljes ANN -t használ a ma híres Deep Dream projekt ahol a számítógépek osztályozhatják és akár képeket is létrehozhatnak.

Csoportunk az immunrendszert tanulmányozza, azzal a céllal a rák új gyógymódjainak kitalálása. ANN számítási modelleket használtunk az immunsejtjeink által használt rövid felszíni fehérjekódok tanulmányozására annak megállapítására, hogy valami idegen-e a testünk számára, és ezért támadni kell. Ha jobban megértjük, hogy az immunsejtjeink (például a T-sejtek) hogyan tesznek különbséget a normál/saját és a kóros/idegen sejtek között, akkor jobb vakcinákat és terápiákat tervezhetünk.

A kutatók által az évek során azonosított, több ezer fehérjekód nyilvánosan elérhető katalógusát kerestük. Ezt a nagy adathalmazt két részre osztottuk: egészséges emberi sejtekből származó normál önfehérje kódokra és vírusokból, daganatokból és baktériumokból származó rendellenes fehérjekódokra. Ezután a laboratóriumunkban kifejlesztett mesterséges neurális hálózathoz fordultunk.

Miután betápláltuk a fehérjekódokat az ANN-be, az algoritmus képes volt azonosítani alapvető különbségek normál és abnormális fehérjekódok között. Az embereknek nehéz lenne nyomon követni az ilyen típusú biológiai jelenségeket - szó szerint több ezer ilyen fehérjekódot kell elemezni a nagy adathalmazban. Gépre van szükség ahhoz, hogy megbirkózzon ezekkel az összetett problémákkal és meghatározza az új biológiát.

Jóslatok a gépi tanuláson keresztül

A gépi tanulás legfontosabb alkalmazása a biológiában annak hasznossága, hogy előrejelzéseket készíthet nagy adatok alapján. A számítógépes előrejelzések értelmezhetik a nagy adatokat, tesztelhetnek hipotéziseket, és értékes időt és erőforrásokat takaríthatnak meg.

Például a T-sejtbiológia területén a vakcinák és kezelések kifejlesztésében kritikus fontosságú annak ismerete, hogy mely vírusfehérje-kódokat célozzuk meg. De annyi vírusból származó egyedi fehérjekód van, hogy nagyon drága és nehéz kísérletileg tesztelni mindegyiket.

Ehelyett a mesterséges ideghálózatot képeztük ki, hogy segítsen a gépnek megtanulni a kétféle fehérjekód fontos biokémiai jellemzőit-normál és kóros. Ezután megkértük a modellt, hogy „jósolja meg”, hogy mely új vírusfehérje-kódok hasonlítanak a „kóros” kategóriára, és a T-sejtek, és ezáltal az immunrendszer láthatják őket. Az ANN modellt különböző vírusfehérjéken teszteltük, amelyeket korábban soha nem vizsgáltak.

Valóban, mint egy szorgalmas diák, aki szívesen tetszene a tanárnak, a neurális hálózat képes volt pontosan azonosítani az ilyen T-sejt-aktiváló fehérje-kódok többségét ebben a vírusban. Kísérletileg teszteltük az általa megjelölt fehérjekódokat is, hogy megerősítsük az ANN előrejelzéseinek pontosságát. Ezt az ideghálózati modellt használva a tudós így gyorsan megjósolni minden fontos rövid fehérje kódot egy káros vírusból, és tesztelje őket, hogy kifejlesszenek egy kezelést vagy vakcinát, ahelyett, hogy egyénileg találgatnának és tesztelnének.

A gépi tanulás bölcs megvalósítása

A folyamatos finomításnak köszönhetően a big data tudomány és a gépi tanulás egyre inkább nélkülözhetetlenné válik bármilyen tudományos kutatás számára. A számítógépek felhasználásának lehetőségei a biológia képzésére és előrejelzésére szinte végtelenek. Attól, hogy kitaláljuk, melyik biomarker -kombináció a legjobb a betegség kimutatására, egészen a megértésig néhány beteg részesül egy adott rákkezelésben, a nagy adathalmazok számítógépekkel történő bányászata értékes útvonala lett a kutatásnak.

Természetesen vannak korlátozások. A big data tudomány legnagyobb problémája maga az adat. Ha az -omika tanulmányok által gyűjtött adatok kezdetben hibásak, vagy rossz tudományon alapulnak, a gépek rossz képzésre fognak kiképezni -ami rossz előrejelzések. A tanuló csak olyan jó, mint a tanár.

Mivel a számítógépek nem érzékenyek (még), minták keresése során előállhatnak velük még akkor is, ha nincsenek ilyenek, ami rossz adatokat és nem reprodukálható tudományt eredményez.

Néhány kutató pedig aggodalmát fejezte ki a számítógépek válásával kapcsolatban adatok fekete dobozai olyan tudósok számára, akik nem értik egyértelműen a nevükben végrehajtott manipulációkat és machinációkat.

E problémák ellenére a big data és a gépek előnyei továbbra is értékes partnerekké válnak a tudományos kutatásban. Figyelembe véve a figyelmeztetéseket, egyedülállóan készek vagyunk megérteni a biológiát egy gép szemével.

A szerzőrőlA beszélgetés

Sri Krishna, PhD jelölt, biológiai tervezés, Biológiai és Egészségügyi Rendszermérnöki Iskola, Arizona Állami Egyetem és Diego Chowell, alkalmazott matematika doktorandusz, Arizona State University

Ezt a cikket eredetileg közzétették A beszélgetés. Olvassa el a eredeti cikk.


Kapcsolódó könyv:

at InnerSelf Market és Amazon