Biyoinformatikte Veri Tabanları





1608x1200 Information Technology Red Background Assessing the …

Veri Tabanı Nedir?     



Veri tabanı, verilerin sistematik bir şekilde toplanmasıyla oluşan, verinin depolanmasını ve üzerinde değişiklikler yapılmasını sağlayan elektronik bir bilgisayar sistemidir. Veri tabanları, herhangi bir verinin kolayca elde edilmesi konusunda ve aynı zamanda bir verinin değiştirilerek güncel bir yapı haline getirilmesinde yardımcı olurlar. Basit bir örnek verecek olursak; bir telefon rehberine kişilere ait isimleri ve telefon numaralarını kaydetmek için bir veri tabanı kullanmak gerekir. Veri tabanları bilgilerin düzenli bir şekilde depolanması için önemlidir. Farklı kullanıcılar tarafından erişilebilirlerdir.

Biyoinformatik Alanında Veri Tabanları


Biyoinformatik alanı, çalışma alanı itibariyle biyolojik bilgilerin oluşturulması ve bu oluşturulan bilgilerin düzenli bir biçimde saklanması için veri tabanlarına ihtiyaç duyar. Biyolojik veriler, oldukça yoğun olduğundan dolayı haliyle bir veri tabanına -sistematik ve düzenli bir şekilde çalışmak için- gereksinim duyar. Bu yoğun biyolojik verilerin oluşturulması, depolanması ve saklanması için farklı veri tabanları geliştirilmiştir. 
Veri tabanları, genler üzerinde analizler yapılması, hastalıklar arasında ilişkilerin belirlenmesi ve yorumlanması amacıyla büyük önem taşır. Şimdi veri tabanlarını yakından inceleyelim.

En çok kullanılan ve en yaygın olarak bilinen veri tabanları; Amerika tabanlı NCBI (National Center for Biotechnology Information), Avrupa tabanlı EBI (European BioinformaticInstitue) ve Japonya temelli DDBJ (DNA Databank of Japan)’ dir. Bu kuruluşlar, dizilerin oluşturulması ve bu bilgilerin paylaşılmasında birbirleriyle ortak çalışma içerisindedirler ve internet üzerinden kullanılabilen birçok biyoinformatik aracını da biz biyoinformatik araştırmacılarının hizmetine sunarlar.
embl ebı ile ilgili görsel sonucuddbj ile ilgili görsel sonucu

Nükleotid Dizilimli Veri Tabanları


NCBI tarafından oluşturulmuş olan GenBank, nükleotid dizilerinin depolanmış olduğu veri tabanıdır. Aynı zamanda, EBI’ nın kurmuş olduğu ENA (European Nucleotide Archive) da bu amaç için kullanılan bir diğer veri tabanıdır. Nükleotid dizilimli veri tabanları birçok canlı için nükleotid dizilimini metin formatında depolar. Bu tür depolama işlemine FASTA formatı denir. Bu formatta her harf bir nükleotidi simgeler.

ensembl ile ilgili görsel sonucuENSEMBL: Avrupa Biyoinformatik Enstitüsü EBI tarafından oluşturulan ENSEMBL birçok canlı için genom bilgisi içeren ve internet üzerinden rahatlıkla ulaşılabilen biyolojik bir veri tabanıdır. Genler üzerinde ayrıntılı açıklamalar içerir ve ayrıca tüm dizilimler FASTA formatında görüntülenebilir. Canlıların kromozom ve genom bilgilerine ulaşılabilir, karşılaştırma yapılabilir. ENSEMBL veri tabanında bir gen adı, bir hastalık adı veya belirli bir tür için arama yapılabilir. Bir hastalık arandığında  o  hastalıkla   ilgili   olabilecek  genleri   ve   transkriptleri   karşımıza çıkarır.   Bir  gen,  adı   ile arandığında   farklı   türlerdeki   ilgili   geni   ve transkriptlerini   listeler. Bir lokasyon ile arandığında ise o lokasyon için dizilim görüntüler. ENSEMBL veri tabanı üzerinde özelleştirilmiş analiz araçları mevcuttur. BioMart ve  BLAST   bu analiz araçlarındandır.

GenBank: GenBank Amerika kaynaklı NCBI tarafından oluşturulmuş olan bir veri tabanıdır.  İnternet sitesinden kolaylıkla ulaşılabilir. Belirli bir gen için arama ve DNA dizilimi yapar. ENSEMBL’ dan farklı   olarak   bir  gen   hakkındaki genel bilgiler dışında, gen ile ilgili yayınlanmış makaleler ve genin dizilim güncellemeleri ile ilgili  bilgileri de araştırmacıya sunar.

Nükleotid dizilimli veri tabanlarının yanı sıra, protein veri tabanları da mevcuttur.

Protein Veri Tabanları

protein amino acids ile ilgili görsel sonucu

Proteinler, aminoasitlerin birbirlerine bağlanması sonucu oluşan büyük organik bileşiklerdir. Her amino asit bir harf ile gösterilir. Yani bu durumda protein dizileri de nükleotid dizilerinde olduğu gibi FASTA formatı ile gösterilebilir. Protein veri tabanları 3 kısma ayrılmıştır; UniProt, InterPro, PDB.

UniProt, protein dizilimleri ve fonksiyonu için kullanılan bir veri tabanıdır. European Bioinformatics Institute (EMBL-EBI),  Swiss Institute of Bioinformatics (SIB) ve Protein Information Resource (PIR) enstitü ve kaynaklarının işbirliği sonucu oluşmuş olan bir veri tabanıdır. UniProt veri tabanı üç farklı kısma ayrılır; UniProt bilgi tabanı (UniProtKB)UniProt Reference Kümeleri (UniRef), ve UniProt Arşivi (UniParc). Bir proteine ait birçok detaylı bilgiyi araştırmacıya sunar. Her proteine ait spesifik bir kimlik numarası içerir.

InterPro, Avrupa tabanlı, EBI sisteminden erişilebilir bir veri tabanıdır. Proteinleri anlamak ve protein aileleri ile ilişkilendirmek için kullanılan bir veri tabanıdır. Proteinlerin dizi analizi ve sınıflandırılması yapılabilir. Proteinleri sınıflandırırken tahmin edilir modeller kullanır. Bu modeller “signature” olarak bilinir. 


PDB: Avrupa tabanlı olan PDBe ( Protein DataBank in Europe) ve Amerikan tabanlı olan PDB (Protein Databank) ortak çalışmakta olup proteinlerin üç boyutlu (3D) yapısını depolar. Her bir yapı için ayrı ayrı detaylı analizler ve şematik sistemler içerir. UniProt  protein  veri tabanında   araştırılan  bir proteinin   yapısı   hakkında   bilgi   edinmek   için,  PDBe veri tabanı UniProt’ dan elde edilen kimlik numarası ile sorgulanabilir.

  pdb protein data bank ile ilgili görsel sonucu  uniprot ile ilgili görsel sonucu  Ä±nterpro ebı ile ilgili görsel sonucu


Yukarıda bahsettiğimiz veri tabanları sayesinde nükleotidler, proteinler ve bu yapıların işlevleri, fonksiyonları ile ilgili verilere rahatlıkla ulaşabiliriz. Fakat istenmeyen verileri filtrelemek, elde edilen veriler arasında bağlantılar kurmak ve daha kapsamlı araştırmalar yapabilmek için biyoinformatikte analiz araçları geliştirilmiştir.

•  Veri Madenciliği: BioMART
•  Dizi hizalama: CLUSTAL
•  Dizi karşılaştırma: BLAST
Bu analiz araçlarından olan BLAST hakkında bir sonraki yazımızda detaylı bilgiler vereceğiz😄

Kaynakça

  • Atalay R.Ç, Neden Biyoinformatik?,Avrasya Dosyası,Moleküler Biyoloji ve Gen Teknolojileri Özel,Sonbahar 2002,Cilt 8,Sayı:3,129-141
  • Yazağan Aslı, Biyolojik veritabanları ve Biyoinformatik Analiz Araçları
  • Mümin Polat, A. G. (2009). Multidisipliner yeni bir bilim dalı: biyoinformatik ve tıpta uygulamaları
  • About UniProt  https://www.uniprot.org/help/about

Yorumlar

Bu blogdaki popüler yayınlar

NCBI ve BLAST ' a Giriş

İnsan Genom Projesi