DNA Veri Depolama

dna veri depolama

DNA, veri depolama ortamı olarak kullanıldığında, geleneksel veri depolama mimarisine göre çok daha yüksek kapasiteli ve daha esnek bir depolama ortamı vaat ediyor. DNA depolama, bilgileri doğrudan DNA moleküllerine arşivleyerek moleküler düzeyde veri depolamaya olanak tanır.

“Bir gram DNA yaklaşık 215 petabayt veriyi minimum 500 yıllık bir ömürle depolayabilir.”

Uzmanlar DNA tabanlı veri depolamanın avantajlarının yoğunluğu ve kararlılığı olduğunu belirtiyor. Bir gram DNA’nın yaklaşık 215 petabayt veriyi minimum 500 yıllık bir ömürle depolayabileceği öngörülüyor.

“Dünya üzerinde şu ana kadar üretilmiş tüm veriler bir fincan kahvesi büyüklüğünde bir DNA depolama ortamında saklanabilir.”

Ancak bunun uzun vadeli bir trend olduğunu unutmamak gerekir. DNA depolama hızla ilerlerken, DNA medyasının bir süre daha yaygınlaşması beklenmiyor. Şu anda DNA depolama kullanılabilirliği için kesin bir zaman çizelgesi yok, ancak bazı iyimserler on yılın sonunda ticari olarak kullanılabilir hale gelmesini umuyor.

Uzmanlar mevcut DNA dizileme ve sentez teknolojilerinin, geleneksel [depolama] altyapısıyla rekabet edemeyecek kadar pahalı ve yavaş olduğunu belirtiyor. Erişim gecikmesi hala yüksek, şu anda saniyede kilobitlik maksimum yazma verimiyle dakikalar ila saatlerle ölçülüyor. Teyp arşivleme ile rekabet edebilecek bir DNA sürücüsü saniyede gigabit yazma hızını desteklemelidir. Bu hıza ulaşmak için DNA sentezinin, yani yazma işleminin altı kat daha hızlı olması gerekiyor. Okuma süreci olan DNA dizileme ise iki ila üç kat daha hızlı hale gelmelidir.

Erişim gecikmesi ve verim zorlukları başarıyla çözülebilse bile, aşılması gereken yüksek bir maliyet engeli var. Teyp depolama ortamının terabayt başına maliyeti kabaca 16 ila 20 dolar arasında iken DNA sentezi ve dizileme maliyetleri ise terabayt başına 800 milyon dolar civarında seyrediyor. Bu maliyetin kabul edilebilir seviyelere gelmesi için uzmanlar çalışmalarına devam ediyor.

Veri Artış Hızı

data growth
Kaynak:Statista
  • Dünya genelinde her gün yaklaşık 2,5 trilyon bayt veri üretilmektedir (IBM).
  • 2021 itibariyle, dünya genelinde yaklaşık 5,5 milyar internet kullanıcısı bulunmaktadır ve bu kullanıcıların her biri günde ortalama olarak 2,5 GB veri üretmektedir (Statista).
  • Günde yaklaşık 500 milyar dolar değerinde veri üretiliyor. (IBM)
  • 2021 yılında dünya genelinde toplam veri trafiği, 2016 yılındaki toplam veri trafiğinin 7 katına çıkmıştır. (Cisco)
  • 2020 yılında, dünya genelinde toplam dijital veri miktarının %90’ı son iki yıl içinde üretildi. (Domo)

Veri büyüklüğünü zihnimizde canlandırabilmek için: 1,8 zetabyte’lık veri hacminin yaklaşık 200 milyar adet yüksek çözünürlüklü uzun metrajlı filme denk geldiğini belirtelim.

Her geçen yıl logaritmik bir şekilde büyüyen verilerin geleneksel yöntemlerle depolanması ve saklanması için yüz binlerce veri depolama sistemi bu sistemlerin güvenli bir ortamda sürekli çalışabilmesi için veri merkezleri, soğutma sistemleri ve doğal olarak elektrik enerjisine ihtiyaç duyulmaktadır.

Yapılan araştırmalarda, şu anda Dünya üzerinde tüketilen elektriğin yaklaşık %3’ünün veri merkezleri tarafından kullanıldığı belirtiliyor. Bu tüketimin önemli bir kısmı da verilerin depolanması ve saklanması için kullanılan donanımlara ait olduğunu düşünürsek DNA veri depolamanın önemi çok daha artıyor.

DNA Moleküllerinde Veri Arşivlemek

dna veri depolama

1950’lerden bu yana geçerli olan uzun süreli soğuk depolama yöntemi, verileri pizza büyüklüğündeki manyetik bant makaralarına yazıyor. Buna kıyasla DNA depolaması potansiyel olarak daha ucuz, enerji açısından daha verimli ve daha uzun ömürlüdür. Araştırmalar, bir tuzla uygun şekilde kapsüllenmiş DNA’nın oda sıcaklığında onlarca yıl stabil kaldığını ve bir veri merkezinin kontrollü ortamında çok daha uzun süre dayanabileceğini gösteriyor. DNA bakım gerektirmez ve DNA’da saklanan dosyalar önemsenmeyecek bir maliyetle kolayca kopyalanabilir.

Daha da iyisi, DNA neredeyse akıl almaz derecede küçük bir hacimde şaşırtıcı miktarda bilgiyi arşivleyebilir. Şunu düşünün: İnsanlık 2025 yılına kadar tahmini olarak 33 zettabayt veri üretecek- bu 3,3 ve ardından 22 sıfır demek. DNA depolaması tüm bu bilgiyi bir pinpon topunun içine sıkıştırabilir, hem de boş yer bırakarak. Amerika kongre kütüphanesinde bulunan 74 milyon milyon baytlık bilgi, bir haşhaş tohumu büyüklüğündeki bir DNA arşivine 6.000 kat daha fazla sıkıştırılabilir. Tohumu ikiye böldüğünüzde Facebook’un tüm verilerini depolayabilirsiniz.

Bilim kurgu mu? Pek sayılmaz. DNA depolama teknolojisi bugün mevcut, ancak bunu uygulanabilir kılmak için araştırmacıların farklı teknolojileri entegre etme konusunda birkaç zorlu teknolojik engeli aşması gerekiyor. Los Alamos Ulusal Laboratuvarı’ndaki ekipler, bu işi yapmak için büyük bir işbirliğinin parçası olarak, moleküler depolama için anahtar bir teknoloji geliştirdi. Yazılım Adaptive DNA Storage Codex (ADS Codex), veri dosyalarını bilgisayarların anladığı sıfır ve birlerden oluşan ikili dilden biyolojinin anladığı dört harfli koda çeviriyor.

ADS Codex, İstihbarat İleri Araştırma Projeleri Faaliyeti (Intelligence Advanced Research Projects Activity-IARPA) Moleküler Bilgi Depolama (Molecular Information Storage-MIST) programının önemli bir parçasıdır. MIST, devlet ve özel sektördeki büyük veri operasyonlarına daha ucuz, daha büyük, daha uzun ömürlü depolama getirmeyi amaçlıyor ve kısa vadede bir terabayt (bir trilyon bayt) yazma ve 1.000 dolar maliyetle 24 saat içinde 10 terabayt okuma hedefliyor.

Bilgisayar Kodundan Genetik Koda

dna veri depolama ()Çoğu insan DNA’yı düşündüğünde aklına bilgisayar değil, yaşam gelir. Ancak DNA’nın kendisi, bir organizma hakkında bilgi aktarmak için kullanılan dört harfli bir koddur. DNA molekülleri, her biri bir harfle tanımlanan dört tip bazdan veya nükleotitten oluşur:

Adenin (A), Timin (T), Guanin (G) ve Sitozin (C). Tüm DNA kodlarının temelini oluşturan bu nükleotidler, yeryüzündeki her canlının inşası için kullanım kılavuzu sağlar.

Oldukça iyi anlaşılmış bir teknoloji olan DNA sentezi tıpta, farmasötiklerde ve biyoyakıt geliştirmede yaygın olarak kullanılmaktadır. Bu teknik, bazları belirli A, C, G ve T dizileriyle gösterilen çeşitli düzenlemeler halinde organize eder. Bu bazlar, molekülü oluşturmak için birbirlerinin etrafına bükülmüş bir zincir- bilindik çift sarmal- şeklinde sarılır. Bu harflerin diziler halinde düzenlenmesi, bir organizmaya nasıl oluşacağını söyleyen bir kod oluşturur.

DNA moleküllerinin tamamı genomu, yani vücudunuzun planını oluşturur. Araştırmacılar DNA moleküllerini sentezleyerek- sıfırdan yaparak- A, C, G ve T harflerinden oluşan uzun dizileri belirleyebileceklerini veya yazabileceklerini ve daha sonra bu dizileri geri okuyabileceklerini keşfettiler. Bu süreç, bir bilgisayarın ikili bilgileri nasıl depoladığına benzemektedir. Buradan, ikili bir bilgisayar dosyasını bir moleküle kodlamak kısa bir kavramsal adım.

Yöntemin işe yaradığı kanıtlanmıştır, ancak DNA kodlu dosyaların okunması ve yazılması şu anda uzun zaman almaktadır. DNA’ya tek bir bazın eklenmesi yaklaşık bir saniye sürüyor. Bu hızda bir arşiv dosyası yazmak onlarca yıl sürebilir, ancak araştırmalar, aynı anda birçok moleküle yazan büyük ölçüde paralel işlemler de dahil olmak üzere daha hızlı yöntemler geliştiriyor.

Dosya Alma

Alternatif bir yaklaşım olarak MIT ekibi, her bir DNA dosyasını küçük bir silika parçacığına kapsüllemeyi içeren yeni bir geri alma tekniği geliştirdi. Her kapsül, dosyanın içeriğine karşılık gelen tek sarmallı DNA “barkodları” ile etiketlenmiştir. Bu yaklaşımı uygun maliyetli bir şekilde göstermek için araştırmacılar 20 farklı görüntüyü yaklaşık 3.000 nükleotid uzunluğunda, yani yaklaşık 100 bayta eşdeğer DNA parçalarına kodladılar. (Ayrıca kapsüllerin bir gigabayt boyutuna kadar DNA dosyalarını sığdırabileceğini de gösterdiler).

Her dosya “kedi” ya da “uçak” gibi etiketlere karşılık gelen barkodlarla etiketlendi. Araştırmacılar belirli bir görüntüyü çıkarmak istediklerinde, DNA’nın bir örneğini çıkarıyor ve aradıkları etiketlere karşılık gelen primerler ekliyorlar – örneğin, bir kaplan görüntüsü için “kedi,” “turuncu” ve “vahşi” veya bir ev kedisi için “kedi,” “turuncu” ve “evcil”.

Primerler floresan veya manyetik parçacıklarla etiketlenerek eşleşenlerin örnekten çıkarılmasını ve tanımlanmasını kolaylaştırır. Bu, DNA’nın geri kalanının bozulmadan depoya geri konulmasına izin verirken istenen dosyanın çıkarılmasını sağlar. Geri getirme süreci, “başkan VE 18. yüzyıl” gibi Boole mantığı ifadelerinin, Google görsel aramasıyla elde edilene benzer bir sonuç olarak George Washington’u üretmesine olanak tanıyor.

“Kavram kanıtımızın şu anki durumunda, saniyede 1 kilobayt arama hızındayız. Dosya sistemimizin arama hızını kapsül başına veri boyutu belirliyor; bu da şu anda DNA’ya 100 megabaytlık veri yazmanın bile engelleyici maliyeti ve paralel olarak kullanabileceğimiz ayırıcı sayısı ile sınırlı. DNA sentezi yeterince ucuzlarsa, yaklaşımımızla dosya başına depolayabileceğimiz veri boyutunu en üst düzeye çıkarabiliriz” diyor Banal.

Araştırmacılar barkodları için, Harvard Tıp Fakültesi’nde genetik ve tıp profesörü olan Stephen Elledge tarafından geliştirilen, her biri yaklaşık 25 nükleotid uzunluğunda 100.000 diziden oluşan bir kütüphanedeki tek sarmallı DNA dizilerini kullandılar. Her dosyaya bu etiketlerden iki tane koyarsanız, 1010 (10 milyar) farklı dosyayı benzersiz bir şekilde etiketleyebilirsiniz ve her birine dört etiket koyarsanız, 1020 dosyayı benzersiz bir şekilde etiketleyebilirsiniz.

Harvard Tıp Fakültesi’nde genetik profesörü olan George Church, bu tekniği “bilgi yönetimi ve arama teknolojisi için dev bir sıçrama” olarak tanımlıyor.

Çalışmada yer almayan Church, “DNA formunda yazma, kopyalama, okuma ve düşük enerjili arşivsel veri depolamadaki hızlı ilerleme, devasa (1021 bayt, zetta ölçeğinde) veri tabanlarından veri dosyalarının hassas bir şekilde alınması için yeterince keşfedilmemiş fırsatlar bıraktı” diyor. “Yeni çalışma, tamamen bağımsız bir DNA dış katmanı kullanarak ve DNA’nın farklı özelliklerinden yararlanarak (dizileme yerine hibridizasyon) ve dahası mevcut cihazları ve kimyaları kullanarak bunu olağanüstü bir şekilde ele alıyor.”

Bathe, bu tür bir DNA kapsüllemesinin “soğuk” verilerin, yani bir arşivde tutulan ve çok sık erişilmeyen verilerin depolanması için yararlı olabileceğini öngörüyor. Bathe’nin laboratuvarı, hem uzun vadede DNA veri depolama hem de yakın vadede klinik ve diğer önceden var olan DNA örnekleri için DNA’nın uzun süreli depolanmasına yönelik teknoloji geliştiren Cache DNA adlı bir startup’ı hayata geçiriyor.

Bathe şöyle diyor: “DNA’nın bir veri depolama aracı olarak kullanılmaya başlanması biraz zaman alacak olsa da, Covid-19 testlerinden, insan genomik dizilemesinden ve genomiğin diğer alanlarından elde edilen önceden var olan DNA ve RNA örnekleri için düşük maliyetli, büyük depolama çözümlerine yönelik acil bir ihtiyaç bugün zaten mevcut.” (https://news.mit.edu/2021/dna-data-storage-0610)

Çeviride Hiçbir Şey Kaybolmaz

ADS Codex, sıfırların ve birlerin A, C, G ve T’nin dört harf kombinasyonundan oluşan dizilere nasıl çevrileceğini tam olarak söyler. DNA çeşitli yöntemlerle sentezlenebilir ve ADS Codex bunların hepsine uyum sağlayabilir.

Ne yazık ki, geleneksel dijital sistemlerle karşılaştırıldığında, DNA sentezi ile moleküler depolamaya yazarken hata oranları çok yüksektir. Bu hatalar dijital dünyada olduğundan farklı bir kaynaktan ortaya çıkar ve düzeltilmeleri daha zordur.

Dijital bir sabit diskte, ikili hatalar bir sıfırın bire dönüşmesi ya da tam tersi olduğunda ortaya çıkar. DNA’da ise sorunlar ekleme ve silme hatalarından kaynaklanır.

Örneğin, A-C-G-T yazıyor olabilirsiniz, ancak bazen A yazmaya çalışırsınız ve hiçbir şey görünmez, bu nedenle harf dizisi sola kayar veya AAA yazar. Normal hata düzeltme kodları bu tür sorunlarda iyi çalışmaz, bu nedenle ADS Codex verileri doğrulayan hata algılama kodları ekler. Yazılım verileri tekrar ikiliye dönüştürdüğünde, kodların eşleşip eşleşmediğini test eder. Eşleşmezlerse, doğrulama başarılı olana kadar bazları (harfleri) kaldırır veya ekler.

Akıllı Ölçeklendirme

ADS Codex’in 1.0 sürümü tamamlandı ve bu yılın sonlarında diğer MIST ekipleri tarafından geliştirilen depolama ve erişim sistemlerini değerlendirmek için kullanılması planlanıyor.

Dünyadaki tüm veriler- tüm dijital fotoğraflarınız ve tweetleriniz; küresel finans sektörünün tüm kayıtları, ekili alanların, birlik hareketlerinin ve buzul erimesinin tüm uydu görüntüleri; modern bilimin çoğunun altında yatan tüm simülasyonlar ve çok daha fazlası- bir yere gitmek zorunda. “Bulut” aslında bir bulut değildir. Trilyonlarca baytı depolamak (ve serin tutmak) için büyük miktarlarda elektrik tüketen devasa depolardaki dijital veri merkezleridir. nİnşası, elektriği ve işletmesi milyarlarca dolara mal olan bu veri merkezleri, veri depolama ihtiyacı katlanarak artmaya devam ettikçe ayakta kalmakta zorlanabilir.

DNA, dünyanın veri depolama konusundaki doymak bilmez iştahını doyurmak için büyük umut vaat ediyor. Bu teknoloji yeni araçlar ve bildik araçları uygulamak için yeni yollar gerektiriyor. Ancak bir gün dünyanın en değerli arşivleri haşhaş tohumu büyüklüğünde bir molekül koleksiyonunda yeni bir yuva bulursa şaşırmayın.

Evet konu önemli olunca teknoloji üreticilerinin bu konuda araştırma geliştirme yapmaları yadsınamaz. Aşağıdaki videolarda konuyla ilgili Microsoft’un DNA veri depolama konusundaki araştırmaları hakkında detaylı bilgi bulabilirsiniz.

 

Kaynak:

 

 

İlk yorum yapan olun

Bir yanıt bırakın

E-posta hesabınız yayımlanmayacak.


*