NCBI ve BLAST ' a Giriş

NCBI

Bir önceki yazımızda bahsetmiş olduğumuz veri tabanlarından biri olan NCBI(National Center for Biotechnology Information), hesaplama biyolojisinde araştırma yapan, genom verilerini analiz etmek için yazılım araçları geliştiren ve biyomedikal bilgiyi yayan, NLM(National Library of Medicine)’nin alt birimidir. 1988 yılında ABD’ de kurulmuştur.

NCBI, matematiksel ve bilişimsel yöntemler kullanarak, moleküler seviyede temel biyomedikal alanlardaki problemler üzerine araştırmalar için rehberlik yapar. Makale, gen, protein, nükleotid gibi farklı veri tabanları içerir. Bu veri tabanları sayesinde, literatür tarama, sekans araştırması yapma, farklı organizmalara ait genetik bilgiyi araştırma vb. bir çok alanda araştırmacılara kaynak sağlar.

Öne çıkan popüler kaynaklar şöyledir;

PubMed: MEDLINE (Medical Literature, Analysis, and Retrieval System Online)’ da 24 milyondan fazla alıntıya erişim sağlayan National Library of Medicine (NLM) ve diğer ilgili veri tabanlarına çevrimiçi dergilerin katılımı ile birlikte bağlantı sağlayan arama servisidir. Ücretsiz bir kaynaktır. Bir makalenin tamamı- yazarlar tarafından sağlanılması durumunda- ücretsiz olarak görüntülenebilir.

Entrez: Bilimsel literatürü, DNA ve protein sekans veri tabanlarını, üç boyutlu protein yapı verilerini, nüfus çalışma veri kümelerini ve tam genomları sisteme entegre eder. PubMed Entrez’in literatür bileşenidir.

BLAST: BLAST (Basic Local Alignment Search Tool), NCBI' ın nükleotid ve protein veri tabanlarının analizini desteklemek için tasarlanmış, sekans benzerliğini araştırmak için kullanılan araçtır. BLAST, sorgunun protein mi yoksa DNA mı olduğuna bakılmaksızın, kullanılabilir tüm dizi veri tabanlarını incelemek için tasarlanmış bir programdır. (Yazımızın ilerleyen kısımlarında BLAST ile ilgili daha detaylı bilgi vereceğiz.)

OMIM: Online Mendelian Inheritance in Man(OMIM) insan genlerini ve genetik bozukluklarını içeren bir katalogdur. Veri tabanı ayrıntılı referans bilgilerini içermektedir. Ayrıca, PubMed makalelerindeki sekans bilgilerini de içerir. Sürekli güncellenen bir veri tabanına sahiptir. Bilinen tüm kalıtsal hastalıklarla ve 15,000 den fazla genle ilgili bilgi içerir.

NCBI, yaklaşık 200 kitabı çevrimiçi olarak sunmaktadır. Bu kitaplar aranabilir ve PubMed ile bağlantılıdır.

NCBI taksonomi sitesi, canlı organizmalar için bir taksonomi tarayıcısı içerir. Site, genetik kodlar ve taksonomi kaynakları gibi taksonomi bilgilerini ve soyu tükenmiş organizmalar üzerindeki moleküler veriler ve sınıflandırma şemalarındaki son değişiklikler gibi ek bilgileri içermektedir. Taksonomi Veri Tabanı, sekans veri tabanlarındaki tüm organizmalar için düzenlenmiş bir sınıflandırmadır. Şu anda gezegende açıklanan yaşam türlerinin yaklaşık% 10'unu temsil etmektedir.

NCBI yapı alanı, moleküler modelleme veri tabanı (MMDB), makro moleküler üç boyutlu yapıların veri tabanı ve bunların görselleştirilmesi ve karşılaştırmalı analizi için araçlar içerir. MMDB, Protein Data Bank'tan (PDB) elde edilen deneysel olarak belirlenmiş biyopolimer yapıları içerir. NCBI' daki yapı kaynakları arasında, PDBeast, Cn3D (üç boyutlu bir yapı görüntüleyici) ve yapıların karşılaştırılmasına izin veren bir vektör hizalama arama aracı (VAST) yer alır.

BLAST ( BASIC LOCAL ALIGNMENT SEARCH TOOL)

Yazımızın bu bölümünde BLAST ve kullanım alanlarından bahsetmeye çalışacağız.

Öncelikle elinizde bir protein veya DNA dizisi varsa ve bunların diğer dizilerle veya proteinlerle olan benzerliklerini bulmak istiyorsanız BLAST tam da aradığınız araç diyebiliriz. BLAST NCBI’ın veri tabanı dahilinde diziler ve proteinler arasında -ya da sadece bir kelimeyle bile (mouse serine ve protease gibi) arama yaptığınızda- benzerlikleri saniyeler içerisinde bulmanızı sağlayan programdır.

Peki benzerlik derken neyi kastediyoruz ve bizim için neden önemli? Benzer diziler genellikle aynı atadan kalma dizileri taşırlar dolayısıyla benzer biyolojik fonksiyonu ve yapıyı paylaşırlar. Buna ek olarak benzelikte de nitelendirmeler yapılmış şöyle ki: eğer elinizdeki iki protein veya gen dizisi birbirine ‘çok fazla’ benziyorsa yani aynı atadan benzer yapıya ve fonksiyonlara sahiplerse bunlara ‘’homolog’’ deniliyor. ‘Çok fazla benzer’ kriterine gelirsek burada bir takım gerekliliklerden bahsedeceğiz. Diyelim ki elinizde 100 aminoasit (bu nükleotit de olabilir) uzunluğunda bir diziniz var. Kurala göre bu proteinin homolog olması için %25’lik benzerlik oranının sağlanmış olması gerekiyor. DNA için ise bu değer en az %70 olmalı. Eğer değeriniz belirtilenlerden düşük çıkarsa yani %25’in altında bir değer elde ettiysek o zaman Twilight Zone dediğimiz durum söz konusu oluyor. Söz konusu durumda gözlemlediğimiz benzerliği yorumlarken yanılabiliriz. Örnek verecek olursak; varsayalım ki %15 benzerlik değerine sahip proteinlerin 3D yapısı tamamen aynı olabildiği gibi, %20 benzerlik oranına sahip proteinlerin yapılarının tamamen farklı olması gibi durumlarla karşı karşıya kalabiliriz. İkinci bir durum da homolog veya homolog olmadığı hakkında da bir varsayımda bulunamayız. Homolog olma durumu da kendi içerisinde iki ayrı başlıkta inceleniyor bunlardan çok kısa bahsedecek olursak paralog ve ortolog kavramları karşımıza çıkıyor. Eğer homolog olan dizi farklı atadan gelip aynı işlevi görüyorsa ortolog olarak tanımlanıyor. Örnek olarak insanda ve ratta bulunan miyoglobin geninden bahsedelim. Miyoglobin kas dokusunda bulunur, oksijenin kanda taşınmasından sorumludur ve insanda da ratta da bu işlevde çalışır. Paralog da ise ortak atadan gelen genin farklı fonksiyonlarda çalışması durumudur. Örnek olarak (human) alpha-1 globin(NP_000508) ve (human) alpha-2 globin (NP_000549) %100 aynı amino asit dizilimine sahiptir fakat insan da ikisi de farklı fonksiyonlarda görev yapmaktadırlar. Peki, elimizde benzer özelliklerini bulmak istediğimiz dizi için aynı fonksiyonları mı kullanıyoruz diye sorarsanız cevabımız ‘hayır’. BLAST burada kendi içinde veri tabanlarını ayırarak bize kolaylık sağlıyor. BLAST içerisinde bulunan veri tabanları şöyledir;

BLASTP: Protein dizisinin protein veri tabanında karşılaştırmasını yaparken kullanılır.

BLASTN: Bir nükleotid dizisi ile tamamlayıcı (komplemanter) diziyi ele alarak, nükleotid dizisi veri tabanlarıyla karşılaştırır.

TBLASTN: Protein dizisinin, nükleotid veri tabanında karşılaştırmasını yaparken kullanılır.

BLASTX: Bir DNA dizisini altı farklı protein dizisine çevirmede kullanılır. Burada proteinler için muhtemel olan altı ‘reading frame’ i kullanır -reading frame, bir nükleik asit (DNA veya RNA) molekülündeki nükleotitlerin sekansını ardışık, üst üste binmeyen üçlü gruplara bölmenin bir yoludur- ve daha sonra muhtemel olan altı proteinin her birini protein veri tabanında karşılaştırır.

TBLASTX: En yoğun bilişimsel BLAST algoritmasıdır. Veri tabanına yüklenen nükleotid dizisinin altı adet değişiminini, nükleotid veri tabanında bulunan altı muhtemel değişim ile karşılaştırır. Kodlama potansiyellerine göre, veri tabanına yüklenen nükleotid dizilerini karşılaştırma yaparak belirler.

Bu Blogda Ara

Biyoinformatik Dünyası