Galaxy ile Genomik Veri Bilimi


Biyoloji ve genetik, veri açısından oldukça yoğun bilim dalları olmaları  sebebiyle istatistiksel ve bilişimsel metotlar çokça kullanılmaktadır. Bu metotların başka araştırmacılar tarafından da ulaşılabilir olması ve yapılan bilişimsel araştırmaların  tekrarlanabilirliği önemlidir.
Tekrarlanabilirlik, bir çalışmada yapılmış olan analizlerin detaylı bir şekilde tanımlanması ve başka bir araştırmacı tarafından başka bir ortamda gerçekleştirilebilmesidir. Böylece bir araştırmacı, bir veri seti kullanarak başka bir araştırmacının farklı bir veri setiyle yapmış olduğu araştırmayı tekrarlayabilir.
Maalesef çoğu yayımlanmış olan analizler tekrarlanabilir değildir. Bunun sebebi ise yazılım, parametre, kullanılan programların versiyonu hakkında bilgilerin eksik olmasıdır.

Galaxy Platformuna Giriş

Galaxy, genomik için erişilebilir bir analiz sistemidir. Galaxy herkes için ücretsiz olan bir web servisidir(https://usegalaxy.org/ ). Birçok araç bulundurur, kalıcı olarak veri depolama imkanı sunar. Açık kaynaklı bir yazılımdır. Kendi araçlarınızı ve verilerinizi birleştirebilirsiniz ve ilave edebilirsiniz. Veri tiplerini, kullanılan araçları, iş akışını paylaşabilirsiniz. Böylelikle yapılan çalışmalara yönelik analizlerin tekrarlanması sağlanabilir. “Workflow” yani “iş akışı” sayesinde birden fazla adımın gerçekleştirilmiş olduğu bir çalışma, hafızaya alınarak aynı işlemlerin farklı veriler üzerinde tekrarlanması sağlanabilir.  Elde edilen veriler geçmişte saklanabilir. Yapılan tüm çalışmalar yayımlanabilir veya paylaşılabilir.
Galaxy aynı zamanda verilerin görselleştirilmesi için de olanak sağlayan bir platformdur. Verilerin görsel analizi yapılabilir.

Galaxy ücretsiz olarak web sitesinden kullanılabilir. Bir hesap açarak kendi verilerinizi depolayabilirsiniz. Ancak web sitesinde karşınıza bazı kısıtlamalar çıkabilir.  Kullanılan verinin miktarı ve depolama alanı kısıtlıdır.
Eğer Galaxy’ de çok büyük verilerle çalışmak isterseniz alternatif iki yöntemi kullanabilirsiniz . Bunlar Galaxy’ yi lokal olarak yüklemek veya cloud computing(bulut bilişim) dir. Bulut bilişim bilgisayarda veya herhangi bir cihazda istediğiniz zaman kullanabileceğiniz ve paylaşabileceğiniz bilişim sistemidir.  Cloudman kullanılarak Galaxy’ yi amazon web service de uygulayabilirsiniz. Başka cloud lar da kullanılabilir. Bu yöntem ücretlidir.  Depolama ve kullanım için bir miktar ücret ödemeniz gerekir.
Sonuç olarak Galaxy bilişimsel olarak gerçekleştirilmiş olan analizlerin erişimini ve tekrarlanabilirliğini sağlayan bir platformdur. Şimdi kolay bir örnek ile Galaxy hakkında daha fazla bilgi elde edelim. İsterseniz adımları siz de tekrarlayabilirsiniz. 

Basit Bir Analiz Örneği

22. Kromozomda bulunan ekzonların –genin protein kodlayan bölgesi- hangisinde tekrarlar en büyüktür?

Genel Plan
  1. Veriyi al (UCSC table browser)
  2. Hangi ekzonların tekrarı olduğunu belirle
  3. Ekzon başına tekrarları say
  4. Tekrarı en fazla olan ekzonları kaydet ve indir.

Galaxy’ ye Giriş

User kısmından Galaxy de bir hesap açabilir veya hesabınıza giriş yapabilirsiniz. Sol tarafta araçlar, sağ tarafta geçmiş, en üstte yapılmak istenilen çalışma ve hesaba giriş bölümleri bulunuyor.


Get Data - UCSC Main table browser kullanarak veriyi indiriyoruz.



Position: chr22             output format: BED en yaygın kullanılan format


Coding Exons


Tekrardan UCSC Main Table Browser kullanarak tekrar verisini alıyoruz.

Group: Repeats               Track: RepeatMasker


Ekzonların ve Tekrarların bulunduğu iki farklı veri seti elde etmiş olduk. 



Tekrarların ve Ekzonların üst üste geldiği yerleri saymak için join aracını kullanıyoruz. Join aracı bütün üst üste gelen -çakışan- yerleri eşleştirir.
Operate on Genomic Intervals - Join
1. Veri seti ekzonlar,  2. Veri seti tekrarlar




Üst üste gelen tekrarların sayısını hesaplamak için; 
Join, Subtract and Group - Group
Ekzon adı 4. Sütunda olduğu için column olarak column 4 ü seçiyoruz.
Sayıyı hesaplamak için, insert new operation seçeneğine tıklayarak type kısmında count ve on column kısmında yine column 4 seçiyoruz.



1. Sütunda ekzon adının 2. Sütunda ise üst üste gelen tekrarın sayısının yazılı olduğu bir tablo elde etmiş olduk. 


Workflow İş akışı

Birden fazla adım gerektiren analizlerde, iş akışını özet haline getirir. Adımlarda kullanılan araçlar ve araçlarda kullanılan veri setlerini kaydederek, benzer bir çalışma yapılmak istendiğinde takip edilecek adımlar için rehber gibi rol oynar. Farklı veriler kullanılarak, daha önce gerçekleştirilmiş olan ve iş akışı olarak kaydedilmiş olan bir analiz tekrarlanabilir.
Workflow oluşturmak için sonuçlanmış bir analizin iş akışını geçmiş bölümüne giderek alabilirsiniz.
History options-> Saved Histories (Tüm geçmişte yapılmış çalışmaları görüntülemek için)
History options-> Extract Workflow

 Create Workflow


Farklı bir veri seti, indirildikten sonra input olarak workflow a girilirse, daha önce gerçekleştirilmiş olan çalışmadaki tüm adımlar yeni veri seti için uygulanır ve yeni bir geçmiş sayfasında kaydedilebilir.

Galaxy platformunda yapılan tüm çalışmalar kaydedildikten sonra yayımlanabilir veya paylaşılabilir. Böylelikle bir analizin tekrarlanabilirliği sağlanmış olur. 

Kaynakça

  • Coursera- Genomic Data Science with Galaxy, Johns Hopkins University

Yorumlar

Bu blogdaki popüler yayınlar

NCBI ve BLAST ' a Giriş

İnsan Genom Projesi

Biyoinformatikte Veri Tabanları