Bakit Ang Hadoop Ay Isang Perpektong Pagtutugma para sa Genome Sequencing

Nilalaman

Ang Kasalukuyan at Hinaharap ng Genomics
Ang Pangangailangan ng Genome Mapping Industry
Ano ang Inaasahan sa Solusyon?
Bakit ang Hadoop Ay ang Pinakamahusay na Solusyon para sa Sextencing ng Genome
Walang Mga bug, Walang Stress - Ang Iyong Hakbang sa Hakbang Patnubay sa Paglikha ng Software na Pagbabago ng Buhay nang Walang Pagsira sa Iyong Buhay
Ano ang Iba pang Magagawa ng Hadoop?
Mga Oportunidad para sa Hadoop
Crossbow: Ang Next-Generation Data Management Platform
Iba pang Hadoop-based Genomics Software
Konklusyon

Pinagmulan: A3701027 / Dreamstime.com

Takeaway:

Ang pagkakasunud-sunod ng genome ay nangangailangan ng malakas na mga tool sa teknolohiya upang mahawakan ang lahat ng data nito, at ang Hadoop ay nasa gawain.

Ang klinikal na genomics ay isang kamangha-manghang paksa, kung saan ang mga tao ay nagtatrabaho sa mga teknolohiyang paggupit upang maproseso ang mabilis at tumpak na mga resulta. Mayroong maraming mga genome sequencers na magagamit sa merkado, at gumagawa sila ng mga petabytes ng data ng pagkakasunud-sunod, at ang paglaki sa pagkakasunud-sunod ay makagawa ng mga exabytes ng data sa malapit na hinaharap. Dito, ang Hadoop ay ang perpektong platform para sa pagproseso ng kumplikadong daloy ng trabaho ng genomics. Ang Hadoop ay maaaring mag-imbak at mag-uri ng napakalaking dami ng impormasyon at maaari ring magbigay ng makabuluhang pagsusuri. (Upang makakuha ng isang ideya ng kung gaano karaming data ang talagang sumasama, basahin ang Pag-unawa sa Mga Bits, Byte at Kanilang Mga Multiple.)

Ang Kasalukuyan at Hinaharap ng Genomics

Sa ngayon, ang pag-mapa ng genome ay umabot sa rurok ng pag-unlad nito. Maraming mga taong nauugnay sa industriya ng genomics ang sumasabog sa pag-usisa, at habang ang mga bagong pagkakataon ay nagpapakita ng kanilang sarili, ang mas mahusay na teknolohiya ay ang pangangailangan ng oras. Ang pagkakasunud-sunod ng genome ay isang paulit-ulit na gawain at masinsinang mapagkukunan. Noong 2013 lamang, mga 15 petabytes ng data ang ginawa, at sa pamamagitan lamang ng 2,000 mga sunud-sunod. Ang halaga ng pagbagsak ng panga na ito ay kasama ang 300 KB ng sunud-sunod na data ng genome ng tao. Sa rate na ito ng paggawa ng data, matatantiya na sa 2018, tungkol sa isang exabyte ng data ang gagawin. Ito ay dahil sa paglaki ng mga magkakasunod, na makagawa ng higit pa at mas maraming data sa bawat pagtakbo. Ang isa pang kadahilanan ay ang pagdating ng labis na makapangyarihan at murang mga pagkakasunud-sunod na makina ng pagkakasunud-sunod. Mula noong 2008, ang presyo ng mga makina ay patuloy na bumababa. Ito ay dahil sa makapangyarihang mga susunod na henerasyon na makina na naipalabas sa merkado.

Ang Pangangailangan ng Genome Mapping Industry

Ang mga kumplikadong algorithm ay ginagamit para sa pagproseso ng data na kinokolekta mula sa genome ng tao. Pagkatapos, ang impormasyong ito ay kailangang maimbak. Maaari itong suriin sa hinaharap para sa paghahambing sa orihinal na data. Ang gawain ng pagproseso at pag-iimbak ng 100 GB ng data ay hindi masyadong mahirap, lalo na kung ginagawa mo ito sa mga makapangyarihang makina na nagtatrabaho sa mga sentro ng pagkakasunud-sunod. Ipinapakita ng mga pag-aaral na ang halagang ito ng data ay maaaring maiproseso sa halos 1,000 na oras ng CPU, kaya napakadali. Sa rate na ito ng pagsulong ng teknikal, makikita na ang industriya ng genome ay malapit nang iproseso ang libu-libong mga gigabytes sa loob lamang ng ilang segundo.

Gayunpaman, ang mga pamamahala ng data at mga diskarte sa pag-iimbak ay hindi mabilis na umuusbong, dahil sa kung saan, aasahan ang isang malaking pagkawala ng mahalagang data. Ito ay talagang hindi kanais-nais, dahil seryosong hadlangan ang mga pag-unlad na ginawa sa genomics ng tao. Kaya, ang pangangailangan para sa isang mahusay na pamamaraan sa pamamahala ng data, na madaling ma-update, ay napakataas. Maaari itong maging epektibo lalo na sa malapit na hinaharap, kung saan ang genome mapping ay lilipat mula sa malalaking mga lab na may malalakas na computer sa maliliit na ospital at lab.

Ano ang Inaasahan sa Solusyon?

Ang tulin ng lakad kung saan ang mga bagong pamamaraan ng pagkakasunud-sunod ng genomic ay natuklasan at binuo ay lubos na mataas. Ang bilis na ito ay maaaring maging kapaki-pakinabang sa agham medikal sa anyo ng isang malakas na hakbang patungo sa pagtanggal ng mga pangunahing sakit. Gayunpaman, ang bilis na ito ay maaaring maging masyadong mapaghamong.

Ang hamon ay nagmumula sa anyo ng pamamahala ng malaking halaga ng data na ginawa ng mga proyekto ng pagkakasunud-sunod. Kaya, kinakailangan ang isang epektibong solusyon na makakatulong sa pag-iimbak at pagproseso ng malaking data. Ang solusyon na ito ay dapat na mura at mabilis, habang umaangkop din. Ang pagsusuri na ibinigay ng solusyon na ito ay dapat ding eksaktong at palagi. Kaya, ano ang solusyon sa problema? Walang alinlangan, ito ay Hadoop. (Para sa higit pang impormasyon sa mga gamit ng Hadoop, tingnan ang 5 Mga Insight Tungkol sa Big Data (Hadoop) bilang isang Serbisyo.)

Bakit ang Hadoop Ay ang Pinakamahusay na Solusyon para sa Sextencing ng Genome

Ano ang kailangan ng industriya ng genomics ay isang mahusay na solusyon na makakatulong sa kanila na epektibong pamahalaan ang data, iproseso ito at iimbak ito para magamit sa hinaharap. Ang solusyon na ito ay tila isang perpektong tugma sa Hadoop software. Kaya, ang Hadoop ay maaaring isaalang-alang bilang perpektong malaking software management software na maaaring mapabuti ang kasalukuyang mga diskarte sa pag-iimbak ng data ng industriya ng genomics.

Ang mga kakayahan ng real-time na Hadoop ay ginagawang posible para sa mga genome sequencers na pag-aralan at mag-imbak ng maraming mga data nang sabay-sabay sa totoong oras. Pinapagana nito ang paggamit ng data sa hinaharap. Ang Hadoop ay maaaring matalo ang maraming mga sistema ng pamana, dahil mas mabilis ito at mas maaasahan kaysa sa kanila.

Walang Mga bug, Walang Stress - Ang Iyong Hakbang sa Hakbang Patnubay sa Paglikha ng Software na Pagbabago ng Buhay nang Walang Pagsira sa Iyong Buhay

Hindi mo maaaring mapabuti ang iyong mga kasanayan sa pag-programming kapag walang nagmamalasakit sa kalidad ng software.

Ano ang Iba pang Magagawa ng Hadoop?

Dahil sa Hadoop, isang malaking bilang ng mga posibilidad at mga pagkakataon ang nagbukas sa larangan ng genomics at pagkakasunud-sunod ng gene. Nag-aalok ang Hadoop ng kahilera na mga pagpipilian sa computing dahil sa kung saan ang mas mabilis na pagkakasunud-sunod ay posible. Gayundin, gamit ang MapReduce function ng Hadoop, ang malaking bilang ng mga gene ay maaaring ma-mapa nang madali. Dahil dito, ang pagkakasunud-sunod sa Hadoop ay tunay na magiging "susunod na gen" at magiging mas kumplikado.

Mga Oportunidad para sa Hadoop

Ang Hadoop ay may maraming mga pagkakataon sa industriya ng genome, ngunit ang pinakamahusay na isa ay nagmula sa artikulo ni Lynda Chin na "Ang pag-unawa sa data ng genomic ng cancer," sa journal na Gen & Development. Sa artikulong ito, tinalakay niya kung paano binuksan ng mga modernong genomics ang mga bagong pinto, at ito ay humantong sa maraming positibong resulta tulad ng pagtuklas ng genomic na impormasyon tungkol sa cancer. Dahil dito, mas malapit kaming matuklasan ang lunas sa cancer mismo. Gayunpaman, ito ay nangangailangan ng kaunting pansin at isang malakas na aplikasyon ng pamamahala ng data para sa mas mahusay na kakayahan sa pananaliksik sa larangan. Ito ay maaaring maging pinakamahusay na pagkakataon para sa Hadoop upang patunayan ang bilis, kapangyarihan at katumpakan nito.

Crossbow: Ang Next-Generation Data Management Platform

Ang crossbow, na kung saan ay isang pipeline ng software na inilaan para sa pagsusuri ng genome re-sequencing, ay isa sa mga pinakamahusay na solusyon. Ito ay ang resulta ng pagsasama sa loob ng Hadoop sa pagitan ng isang mabilis na algorithm para sa pag-align ng sunud-sunod na data, na kung saan ay tinatawag na Bowtie, at isang malakas na algorithm na naghahambing at sinusuri ang sunud-sunod na data, ang isang genotyper na nagngangalang SoapSNP. Ito ay itinayo sa Apache Hadoop at batay sa isang pagpapatupad ng balangkas ng MapReduce. Ang crossbow ay portable, scalable at angkop din bilang isang tool sa computing sa ulap.

Sa malakas na pagsasama na ito, ang isang kumpletong genome ay maaaring masuri sa loob lamang ng isang araw sa isang lokal na kumpol na may 10 node. Sa isang kumpol na 40-node, ang proseso ay mas mabilis at nakumpleto sa loob lamang ng tatlong oras na may kabuuang gastos na mas mababa sa $ 100! Ang isang pag-aaral na isinagawa upang masubukan ang kawastuhan ng Crossbow ay nagpakita na maihahambing nito ang bawat genome na may katumpakan na 99 porsyento. Ang isa pang kapaki-pakinabang na tampok ng Crossbow ay na tumatakbo sa ulap. Kaya, paganahin ng Crossbow ang libu-libong mga susunod na mga sentro ng pagkakasunud-sunod, tulad ng mga ospital, upang mag-order ng malaking halaga ng data ng genome nang hindi nangangailangan ng anumang malakas, magastos na mga computer at teknolohiya.

Iba pang Hadoop-based Genomics Software

Maraming mga kumpanya ang nakilala ang kapangyarihan ng Hadoop sa pagbabago ng mundo ng genomics. Angkop na nabago nila ang Hadoop upang mag-tap sa mga potensyal nito para sa advanced na genome sequencing. Ang ilang mga halimbawa ng mga sikat na Hadoop-based genome sequencing solution ay ibinibigay sa ibaba:

Hadoop-BAM: Ito ay isang makapangyarihang tool sa pamamahala ng data na gumagamit ng pagpapaandar ng MapReduce ng Hadoop para sa iba't ibang mga aktibidad na nauugnay sa genomics, tulad ng genotyping. Gumagana ito sa format na Binary Alignment / Map.
Cloudburst: Ang solusyon na nakabase sa Hadoop na ito ay nilikha noong 2009. Ito ay lubos na mabisa sa paghahambing ng mga pagkakasunud-sunod ng genome at pagma-map sa mga indibidwal na gen. Ito rin ay isa sa mga unang application na nakabase sa Hadoop na idinisenyo para sa hangaring ito.

Konklusyon

Ang pagsasama sa pagitan ng malaking data at industriya ng genomics ay nagpapatunay na maging isang boon sa modernong panahon. Ang mga platform na ito ay epektibo sa pagtuklas ng mga paggamot ng maraming mga sakit tulad ng cancer. Ang data na kung saan ay matatagpuan sa pamamagitan ng genome mapping ay maaaring magamit para sa pagbabalangkas ng pag-iwas sa impormasyong tulad ng mga sakit. Ang pagdating ng malaking data ay maaaring isaalang-alang bilang isang pag-on sa mundo ng genomics, at kung ang impormasyon ay ginamit nang matalino, kung gayon marahil sa mas malawak na larangan ng pangangalaga sa kalusugan. Ang tanging paraan para sa larangan na ito ay isulong ay ang paggamit ng wastong mga tool sa pamamahala ng data tulad ng Hadoop.