Galaxy ile Genomik Veri Bilimi
Biyoloji ve genetik, veri açısından oldukça
yoğun bilim dalları olmaları sebebiyle istatistiksel
ve bilişimsel metotlar çokça kullanılmaktadır. Bu metotların başka
araştırmacılar tarafından da ulaşılabilir olması ve yapılan bilişimsel
araştırmaların tekrarlanabilirliği
önemlidir.
Tekrarlanabilirlik, bir çalışmada yapılmış
olan analizlerin detaylı bir şekilde tanımlanması ve başka bir araştırmacı
tarafından başka bir ortamda gerçekleştirilebilmesidir. Böylece bir
araştırmacı, bir veri seti kullanarak başka bir araştırmacının farklı bir veri
setiyle yapmış olduğu araştırmayı tekrarlayabilir.
Maalesef çoğu yayımlanmış olan analizler
tekrarlanabilir değildir. Bunun sebebi ise yazılım, parametre, kullanılan
programların versiyonu hakkında bilgilerin eksik olmasıdır.
Galaxy Platformuna Giriş
Galaxy, genomik için erişilebilir bir analiz
sistemidir. Galaxy herkes için ücretsiz olan bir web servisidir(https://usegalaxy.org/ ). Birçok araç bulundurur,
kalıcı olarak veri depolama imkanı sunar. Açık kaynaklı bir yazılımdır. Kendi
araçlarınızı ve verilerinizi birleştirebilirsiniz ve ilave edebilirsiniz. Veri
tiplerini, kullanılan araçları, iş akışını paylaşabilirsiniz. Böylelikle
yapılan çalışmalara yönelik analizlerin tekrarlanması sağlanabilir. “Workflow”
yani “iş akışı” sayesinde birden fazla adımın gerçekleştirilmiş olduğu bir
çalışma, hafızaya alınarak aynı işlemlerin farklı veriler üzerinde
tekrarlanması sağlanabilir. Elde edilen
veriler geçmişte saklanabilir. Yapılan tüm çalışmalar yayımlanabilir veya
paylaşılabilir.
Galaxy aynı zamanda verilerin
görselleştirilmesi için de olanak sağlayan bir platformdur. Verilerin görsel
analizi yapılabilir.
Galaxy ücretsiz olarak web sitesinden
kullanılabilir. Bir hesap açarak kendi verilerinizi depolayabilirsiniz. Ancak
web sitesinde karşınıza bazı kısıtlamalar çıkabilir. Kullanılan verinin miktarı ve depolama alanı
kısıtlıdır.
Eğer Galaxy’ de çok büyük verilerle çalışmak
isterseniz alternatif iki yöntemi kullanabilirsiniz . Bunlar Galaxy’ yi lokal
olarak yüklemek veya cloud computing(bulut bilişim) dir. Bulut bilişim
bilgisayarda veya herhangi bir cihazda istediğiniz zaman kullanabileceğiniz ve
paylaşabileceğiniz bilişim sistemidir.
Cloudman kullanılarak Galaxy’ yi amazon web service de
uygulayabilirsiniz. Başka cloud lar da kullanılabilir. Bu yöntem
ücretlidir. Depolama ve kullanım için
bir miktar ücret ödemeniz gerekir.
Sonuç olarak Galaxy bilişimsel olarak
gerçekleştirilmiş olan analizlerin erişimini ve tekrarlanabilirliğini sağlayan
bir platformdur. Şimdi kolay bir örnek ile Galaxy hakkında daha fazla bilgi
elde edelim. İsterseniz adımları siz de tekrarlayabilirsiniz.
Basit Bir Analiz Örneği
22. Kromozomda bulunan ekzonların –genin
protein kodlayan bölgesi- hangisinde tekrarlar en büyüktür?
Genel
Plan
- Veriyi al (UCSC table browser)
- Hangi ekzonların tekrarı olduğunu belirle
- Ekzon başına tekrarları say
- Tekrarı en fazla olan ekzonları kaydet ve indir.
Galaxy’
ye Giriş
User kısmından Galaxy de bir hesap açabilir veya
hesabınıza giriş yapabilirsiniz. Sol
tarafta araçlar, sağ tarafta geçmiş, en üstte yapılmak istenilen çalışma ve
hesaba giriş bölümleri bulunuyor.
Get
Data - UCSC Main table browser kullanarak veriyi indiriyoruz.
Create Workflow
Position: chr22 output
format: BED en yaygın kullanılan format
Coding Exons
Tekrardan
UCSC Main Table Browser kullanarak tekrar verisini alıyoruz.
Group: Repeats Track: RepeatMasker
Ekzonların ve Tekrarların bulunduğu iki farklı veri seti elde etmiş olduk.
Tekrarların ve Ekzonların üst üste geldiği
yerleri saymak için join aracını kullanıyoruz. Join aracı bütün üst üste gelen
-çakışan- yerleri eşleştirir.
Operate
on Genomic Intervals - Join
1. Veri
seti ekzonlar, 2. Veri seti tekrarlar
Üst üste gelen tekrarların sayısını hesaplamak için;
Join,
Subtract and Group - Group
Ekzon
adı 4. Sütunda olduğu için column olarak column 4 ü seçiyoruz.
Sayıyı
hesaplamak için, insert new operation seçeneğine tıklayarak type kısmında count
ve on column kısmında yine column 4 seçiyoruz.
1. Sütunda ekzon adının 2. Sütunda ise üst üste gelen tekrarın sayısının yazılı olduğu bir tablo elde etmiş olduk.
Workflow İş
akışı
Birden fazla adım gerektiren analizlerde, iş
akışını özet haline getirir. Adımlarda kullanılan araçlar ve araçlarda
kullanılan veri setlerini kaydederek, benzer bir çalışma yapılmak istendiğinde
takip edilecek adımlar için rehber gibi rol oynar. Farklı veriler kullanılarak,
daha önce gerçekleştirilmiş olan ve iş akışı olarak kaydedilmiş olan bir analiz
tekrarlanabilir.
Workflow oluşturmak için sonuçlanmış bir
analizin iş akışını geçmiş bölümüne giderek alabilirsiniz.
History
options-> Saved Histories (Tüm geçmişte yapılmış çalışmaları görüntülemek
için)
History
options-> Extract Workflow
Create Workflow
Farklı
bir veri seti, indirildikten sonra input olarak workflow a girilirse, daha önce
gerçekleştirilmiş olan çalışmadaki tüm adımlar yeni veri seti için uygulanır ve
yeni bir geçmiş sayfasında kaydedilebilir.
Galaxy platformunda yapılan tüm çalışmalar kaydedildikten sonra yayımlanabilir veya paylaşılabilir. Böylelikle bir analizin tekrarlanabilirliği sağlanmış olur.
Kaynakça
- Coursera- Genomic Data Science with Galaxy, Johns Hopkins University
Yorumlar
Yorum Gönder