Biyoinformatikte Veri Tabanları

1608x1200 Information Technology Red Background Assessing the â€¦

Veri Tabanı Nedir?

Veri tabanı, verilerin sistematik bir şekilde toplanmasıyla oluşan, verinin depolanmasını ve üzerinde değişiklikler yapılmasını sağlayan elektronik bir bilgisayar sistemidir. Veri tabanları, herhangi bir verinin kolayca elde edilmesi konusunda ve aynı zamanda bir verinin değiştirilerek güncel bir yapı haline getirilmesinde yardımcı olurlar. Basit bir örnek verecek olursak; bir telefon rehberine kişilere ait isimleri ve telefon numaralarını kaydetmek için bir veri tabanı kullanmak gerekir. Veri tabanları bilgilerin düzenli bir şekilde depolanması için önemlidir. Farklı kullanıcılar tarafından erişilebilirlerdir.

Biyoinformatik Alanında Veri Tabanları

Biyoinformatik alanı, çalışma alanı itibariyle biyolojik bilgilerin oluşturulması ve bu oluşturulan bilgilerin düzenli bir biçimde saklanması için veri tabanlarına ihtiyaç duyar. Biyolojik veriler, oldukça yoğun olduğundan dolayı haliyle bir veri tabanına -sistematik ve düzenli bir şekilde çalışmak için- gereksinim duyar. Bu yoğun biyolojik verilerin oluşturulması, depolanması ve saklanması için farklı veri tabanları geliştirilmiştir.

Veri tabanları, genler üzerinde analizler yapılması, hastalıklar arasında ilişkilerin belirlenmesi ve yorumlanması amacıyla büyük önem taşır. Şimdi veri tabanlarını yakından inceleyelim.

En çok kullanılan ve en yaygın olarak bilinen veri tabanları; Amerika tabanlı NCBI (National Center for Biotechnology Information), Avrupa tabanlı EBI (European BioinformaticInstitue) ve Japonya temelli DDBJ (DNA Databank of Japan)’ dir. Bu kuruluşlar, dizilerin oluşturulması ve bu bilgilerin paylaşılmasında birbirleriyle ortak çalışma içerisindedirler ve internet üzerinden kullanılabilen birçok biyoinformatik aracını da biz biyoinformatik araştırmacılarının hizmetine sunarlar.

Nükleotid Dizilimli Veri Tabanları

NCBI tarafından oluşturulmuş olan GenBank, nükleotid dizilerinin depolanmış olduğu veri tabanıdır. Aynı zamanda, EBI’ nın kurmuş olduğu ENA (European Nucleotide Archive) da bu amaç için kullanılan bir diğer veri tabanıdır. Nükleotid dizilimli veri tabanları birçok canlı için nükleotid dizilimini metin formatında depolar. Bu tür depolama işlemine FASTA formatı denir. Bu formatta her harf bir nükleotidi simgeler.

ENSEMBL: Avrupa Biyoinformatik Enstitüsü EBI tarafından oluşturulan ENSEMBL birçok canlı için genom bilgisi içeren ve internet üzerinden rahatlıkla ulaşılabilen biyolojik bir veri tabanıdır. Genler üzerinde ayrıntılı açıklamalar içerir ve ayrıca tüm dizilimler FASTA formatında görüntülenebilir. Canlıların kromozom ve genom bilgilerine ulaşılabilir, karşılaştırma yapılabilir. ENSEMBL veri tabanında bir gen adı, bir hastalık adı veya belirli bir tür için arama yapılabilir. Bir hastalık arandığında o hastalıkla ilgili olabilecek genleri ve transkriptleri karşımıza çıkarır. Bir gen, adı ile arandığında farklı türlerdeki ilgili geni ve transkriptlerini listeler. Bir lokasyon ile arandığında ise o lokasyon için dizilim görüntüler. ENSEMBL veri tabanı üzerinde özelleştirilmiş analiz araçları mevcuttur. BioMart ve BLAST bu analiz araçlarındandır.

GenBank: GenBank Amerika kaynaklı NCBI tarafından oluşturulmuş olan bir veri tabanıdır. İnternet sitesinden kolaylıkla ulaşılabilir. Belirli bir gen için arama ve DNA dizilimi yapar. ENSEMBL’ dan farklı olarak bir gen hakkındaki genel bilgiler dışında, gen ile ilgili yayınlanmış makaleler ve genin dizilim güncellemeleri ile ilgili bilgileri de araştırmacıya sunar.

Nükleotid dizilimli veri tabanlarının yanı sıra, protein veri tabanları da mevcuttur.

Protein Veri Tabanları

protein amino acids ile ilgili gÃ¶rsel sonucu

Proteinler, aminoasitlerin birbirlerine bağlanması sonucu oluşan büyük organik bileşiklerdir. Her amino asit bir harf ile gösterilir. Yani bu durumda protein dizileri de nükleotid dizilerinde olduğu gibi FASTA formatı ile gösterilebilir. Protein veri tabanları 3 kısma ayrılmıştır; UniProt, InterPro, PDB.

UniProt, protein dizilimleri ve fonksiyonu için kullanılan bir veri tabanıdır. European Bioinformatics Institute (EMBL-EBI), Swiss Institute of Bioinformatics (SIB) ve Protein Information Resource (PIR) enstitü ve kaynaklarının işbirliği sonucu oluşmuş olan bir veri tabanıdır. UniProt veri tabanı üç farklı kısma ayrılır; UniProt bilgi tabanı (UniProtKB), UniProt Reference Kümeleri (UniRef), ve UniProt Arşivi (UniParc). Bir proteine ait birçok detaylı bilgiyi araştırmacıya sunar. Her proteine ait spesifik bir kimlik numarası içerir.

InterPro, Avrupa tabanlı, EBI sisteminden erişilebilir bir veri tabanıdır. Proteinleri anlamak ve protein aileleri ile ilişkilendirmek için kullanılan bir veri tabanıdır. Proteinlerin dizi analizi ve sınıflandırılması yapılabilir. Proteinleri sınıflandırırken tahmin edilir modeller kullanır. Bu modeller “signature” olarak bilinir.

PDB: Avrupa tabanlı olan PDBe ( Protein DataBank in Europe) ve Amerikan tabanlı olan PDB (Protein Databank) ortak çalışmakta olup proteinlerin üç boyutlu (3D) yapısını depolar. Her bir yapı için ayrı ayrı detaylı analizler ve şematik sistemler içerir. UniProt protein veri tabanında araştırılan bir proteinin yapısı hakkında bilgi edinmek için, PDBe veri tabanı UniProt’ dan elde edilen kimlik numarası ile sorgulanabilir.

Yukarıda bahsettiğimiz veri tabanları sayesinde nükleotidler, proteinler ve bu yapıların işlevleri, fonksiyonları ile ilgili verilere rahatlıkla ulaşabiliriz. Fakat istenmeyen verileri filtrelemek, elde edilen veriler arasında bağlantılar kurmak ve daha kapsamlı araştırmalar yapabilmek için biyoinformatikte analiz araçları geliştirilmiştir.

• Veri Madenciliği: BioMART

• Dizi hizalama: CLUSTAL

• Dizi karşılaştırma: BLAST

Bu analiz araçlarından olan BLAST hakkında bir sonraki yazımızda detaylı bilgiler vereceğiz😄

Kaynakça

Atalay R.Ç, Neden Biyoinformatik?,Avrasya Dosyası,Moleküler Biyoloji ve Gen Teknolojileri Özel,Sonbahar 2002,Cilt 8,Sayı:3,129-141
Yazağan Aslı, Biyolojik veritabanları ve Biyoinformatik Analiz Araçları
Mümin Polat, A. G. (2009). Multidisipliner yeni bir bilim dalı: biyoinformatik ve tıpta uygulamaları
About UniProt https://www.uniprot.org/help/about

Bu Blogda Ara

Biyoinformatik Dünyası