NCBI ve BLAST ' a Giriş
NCBI
Bir önceki
yazımızda bahsetmiş olduğumuz veri tabanlarından biri olan NCBI(National Center
for Biotechnology Information), hesaplama biyolojisinde araştırma yapan, genom
verilerini analiz etmek için yazılım araçları geliştiren ve biyomedikal bilgiyi
yayan, NLM(National Library of Medicine)’nin alt birimidir. 1988 yılında ABD’
de kurulmuştur.
NCBI, matematiksel
ve bilişimsel yöntemler kullanarak, moleküler seviyede temel biyomedikal
alanlardaki problemler üzerine araştırmalar için rehberlik yapar. Makale, gen, protein, nükleotid gibi farklı
veri tabanları içerir. Bu veri tabanları sayesinde, literatür tarama, sekans
araştırması yapma, farklı organizmalara ait genetik bilgiyi araştırma vb. bir
çok alanda araştırmacılara kaynak sağlar.
Öne çıkan popüler kaynaklar şöyledir;
PubMed: MEDLINE (Medical
Literature, Analysis, and Retrieval System Online)’ da 24 milyondan fazla
alıntıya erişim sağlayan National Library of Medicine (NLM) ve diğer ilgili
veri tabanlarına çevrimiçi dergilerin katılımı ile birlikte bağlantı sağlayan
arama servisidir. Ücretsiz bir kaynaktır. Bir makalenin tamamı- yazarlar
tarafından sağlanılması durumunda- ücretsiz olarak görüntülenebilir.
Entrez: Bilimsel literatürü, DNA
ve protein sekans veri tabanlarını, üç boyutlu protein yapı verilerini, nüfus
çalışma veri kümelerini ve tam genomları sisteme entegre eder. PubMed Entrez’in
literatür bileşenidir.
BLAST: BLAST (Basic Local
Alignment Search Tool), NCBI' ın nükleotid ve protein veri tabanlarının
analizini desteklemek için tasarlanmış, sekans benzerliğini araştırmak için
kullanılan araçtır. BLAST, sorgunun protein mi yoksa DNA mı olduğuna
bakılmaksızın, kullanılabilir tüm dizi veri tabanlarını incelemek için tasarlanmış
bir programdır. (Yazımızın ilerleyen kısımlarında BLAST ile ilgili daha detaylı
bilgi vereceğiz.)
OMIM: Online Mendelian
Inheritance in Man(OMIM) insan genlerini ve genetik bozukluklarını içeren bir
katalogdur. Veri tabanı ayrıntılı referans bilgilerini içermektedir. Ayrıca,
PubMed makalelerindeki sekans bilgilerini de içerir. Sürekli güncellenen bir
veri tabanına sahiptir. Bilinen tüm
kalıtsal hastalıklarla ve 15,000 den fazla genle ilgili bilgi içerir.
NCBI, yaklaşık 200 kitabı çevrimiçi olarak
sunmaktadır. Bu kitaplar aranabilir ve PubMed ile bağlantılıdır.
NCBI taksonomi sitesi, canlı organizmalar için bir taksonomi tarayıcısı içerir. Site, genetik
kodlar ve taksonomi kaynakları gibi taksonomi bilgilerini ve soyu tükenmiş
organizmalar üzerindeki moleküler veriler ve sınıflandırma şemalarındaki son
değişiklikler gibi ek bilgileri içermektedir. Taksonomi Veri Tabanı, sekans
veri tabanlarındaki tüm organizmalar için düzenlenmiş bir sınıflandırmadır. Şu
anda gezegende açıklanan yaşam türlerinin yaklaşık% 10'unu temsil etmektedir.
NCBI yapı alanı, moleküler
modelleme veri tabanı (MMDB), makro moleküler üç boyutlu yapıların veri tabanı ve
bunların görselleştirilmesi ve karşılaştırmalı analizi için araçlar içerir. MMDB,
Protein Data Bank'tan (PDB) elde edilen deneysel olarak belirlenmiş biyopolimer
yapıları içerir. NCBI' daki yapı kaynakları arasında, PDBeast, Cn3D (üç boyutlu
bir yapı görüntüleyici) ve yapıların karşılaştırılmasına izin veren bir vektör
hizalama arama aracı (VAST) yer alır.
BLAST ( BASIC LOCAL ALIGNMENT SEARCH TOOL)
Yazımızın bu bölümünde BLAST ve kullanım alanlarından bahsetmeye
çalışacağız.
Öncelikle elinizde bir protein veya DNA dizisi varsa ve bunların diğer
dizilerle veya proteinlerle olan benzerliklerini bulmak istiyorsanız BLAST tam
da aradığınız araç diyebiliriz. BLAST NCBI’ın veri tabanı dahilinde diziler ve
proteinler arasında -ya da sadece bir kelimeyle bile (mouse serine ve protease
gibi) arama yaptığınızda- benzerlikleri
saniyeler içerisinde bulmanızı sağlayan programdır.
Peki benzerlik derken neyi kastediyoruz ve bizim için neden önemli?
Benzer diziler genellikle aynı atadan kalma dizileri taşırlar dolayısıyla
benzer biyolojik fonksiyonu ve yapıyı paylaşırlar. Buna ek olarak benzelikte de
nitelendirmeler yapılmış şöyle ki: eğer elinizdeki iki protein veya gen dizisi
birbirine ‘çok fazla’ benziyorsa yani aynı atadan benzer yapıya ve
fonksiyonlara sahiplerse bunlara
‘’homolog’’ deniliyor. ‘Çok fazla benzer’ kriterine gelirsek burada bir takım
gerekliliklerden bahsedeceğiz. Diyelim ki elinizde 100 aminoasit (bu nükleotit
de olabilir) uzunluğunda bir diziniz var. Kurala göre bu proteinin homolog
olması için %25’lik benzerlik oranının sağlanmış olması gerekiyor. DNA için ise
bu değer en az %70 olmalı. Eğer değeriniz belirtilenlerden düşük çıkarsa yani
%25’in altında bir değer elde ettiysek o zaman Twilight Zone dediğimiz durum
söz konusu oluyor. Söz konusu durumda gözlemlediğimiz benzerliği yorumlarken
yanılabiliriz. Örnek verecek olursak; varsayalım ki %15 benzerlik değerine
sahip proteinlerin 3D yapısı tamamen
aynı olabildiği gibi, %20 benzerlik oranına sahip proteinlerin yapılarının
tamamen farklı olması gibi durumlarla karşı karşıya kalabiliriz. İkinci bir durum da homolog veya homolog
olmadığı hakkında da bir varsayımda bulunamayız. Homolog olma durumu da kendi
içerisinde iki ayrı başlıkta inceleniyor bunlardan çok kısa bahsedecek olursak
paralog ve ortolog kavramları karşımıza çıkıyor. Eğer homolog olan dizi farklı
atadan gelip aynı işlevi görüyorsa ortolog olarak tanımlanıyor. Örnek olarak
insanda ve ratta bulunan miyoglobin geninden bahsedelim. Miyoglobin kas
dokusunda bulunur, oksijenin kanda taşınmasından sorumludur ve insanda da ratta
da bu işlevde çalışır. Paralog da ise ortak atadan gelen genin farklı
fonksiyonlarda çalışması durumudur. Örnek olarak (human) alpha-1
globin(NP_000508) ve (human) alpha-2
globin (NP_000549) %100 aynı amino asit dizilimine sahiptir fakat
insan da ikisi de farklı fonksiyonlarda görev yapmaktadırlar. Peki, elimizde
benzer özelliklerini bulmak istediğimiz dizi için aynı fonksiyonları mı
kullanıyoruz diye sorarsanız cevabımız ‘hayır’. BLAST burada kendi içinde veri
tabanlarını ayırarak bize kolaylık sağlıyor. BLAST içerisinde bulunan veri
tabanları şöyledir;
BLASTP: Protein dizisinin protein veri
tabanında karşılaştırmasını yaparken kullanılır.
BLASTN: Bir
nükleotid dizisi ile tamamlayıcı (komplemanter) diziyi ele alarak, nükleotid dizisi
veri tabanlarıyla karşılaştırır.
TBLASTN: Protein dizisinin, nükleotid veri
tabanında karşılaştırmasını yaparken kullanılır.
BLASTX: Bir DNA dizisini altı farklı protein
dizisine çevirmede kullanılır. Burada proteinler için muhtemel olan altı ‘reading frame’ i kullanır -reading frame, bir nükleik asit (DNA veya RNA) molekülündeki
nükleotitlerin sekansını ardışık, üst üste binmeyen üçlü gruplara bölmenin bir
yoludur- ve daha sonra muhtemel olan altı proteinin her birini protein veri
tabanında karşılaştırır.
TBLASTX: En yoğun bilişimsel BLAST algoritmasıdır. Veri tabanına yüklenen
nükleotid dizisinin altı adet değişiminini, nükleotid veri tabanında bulunan
altı muhtemel değişim ile karşılaştırır. Kodlama potansiyellerine göre, veri
tabanına yüklenen nükleotid dizilerini karşılaştırma yaparak belirler.
Güzel bir kaynak site oluşturmuşsunuz. Birde bilgileri topladığınız kaynakları belirtirseniz çok daha iyi olur. Teşekkürler biligler için.
YanıtlaSil