Biyoinformatikte Veri Tabanları
Veri Tabanı Nedir?
Veri tabanı, verilerin
sistematik bir şekilde toplanmasıyla oluşan, verinin depolanmasını ve üzerinde
değişiklikler yapılmasını sağlayan elektronik bir bilgisayar sistemidir. Veri tabanları, herhangi bir verinin kolayca elde edilmesi konusunda ve aynı zamanda
bir verinin değiştirilerek güncel bir yapı haline getirilmesinde yardımcı
olurlar. Basit bir örnek verecek olursak; bir telefon rehberine kişilere ait
isimleri ve telefon numaralarını kaydetmek için bir veri tabanı kullanmak gerekir.
Veri tabanları bilgilerin düzenli bir şekilde depolanması için önemlidir. Farklı
kullanıcılar tarafından erişilebilirlerdir.
Biyoinformatik Alanında Veri Tabanları
Biyoinformatik alanı,
çalışma alanı itibariyle biyolojik bilgilerin oluşturulması ve bu oluşturulan
bilgilerin düzenli bir biçimde saklanması için veri tabanlarına ihtiyaç duyar.
Biyolojik veriler, oldukça yoğun olduğundan dolayı haliyle bir veri tabanına -sistematik
ve düzenli bir şekilde çalışmak için- gereksinim duyar. Bu yoğun biyolojik
verilerin oluşturulması, depolanması ve saklanması için farklı veri tabanları
geliştirilmiştir.
Veri tabanları, genler
üzerinde analizler yapılması, hastalıklar arasında ilişkilerin belirlenmesi ve
yorumlanması amacıyla büyük önem taşır. Şimdi veri tabanlarını
yakından inceleyelim.
En çok kullanılan ve en
yaygın olarak bilinen veri tabanları; Amerika tabanlı NCBI (National Center for Biotechnology Information), Avrupa tabanlı EBI (European BioinformaticInstitue) ve Japonya temelli DDBJ (DNA Databank of Japan)’ dir. Bu kuruluşlar, dizilerin
oluşturulması ve bu bilgilerin paylaşılmasında birbirleriyle ortak çalışma
içerisindedirler ve internet üzerinden kullanılabilen birçok biyoinformatik
aracını da biz biyoinformatik araştırmacılarının hizmetine sunarlar.
Nükleotid Dizilimli Veri Tabanları
NCBI tarafından oluşturulmuş
olan GenBank, nükleotid dizilerinin depolanmış olduğu veri tabanıdır. Aynı
zamanda, EBI’ nın kurmuş olduğu ENA (European Nucleotide Archive) da bu amaç
için kullanılan bir diğer veri tabanıdır. Nükleotid dizilimli veri tabanları
birçok canlı için nükleotid dizilimini metin formatında depolar. Bu tür
depolama işlemine FASTA formatı denir. Bu formatta her harf bir nükleotidi
simgeler.
ENSEMBL: Avrupa Biyoinformatik Enstitüsü EBI
tarafından oluşturulan ENSEMBL birçok canlı için genom bilgisi içeren ve
internet üzerinden rahatlıkla ulaşılabilen biyolojik bir veri tabanıdır. Genler
üzerinde ayrıntılı açıklamalar içerir ve ayrıca tüm dizilimler FASTA formatında
görüntülenebilir. Canlıların kromozom ve genom bilgilerine ulaşılabilir, karşılaştırma
yapılabilir. ENSEMBL veri tabanında bir gen adı, bir hastalık adı veya belirli
bir tür için arama yapılabilir. Bir hastalık arandığında o
hastalıkla ilgili olabilecek
genleri ve transkriptleri karşımıza çıkarır. Bir gen,
adı ile arandığında farklı
türlerdeki ilgili geni
ve transkriptlerini listeler.
Bir lokasyon ile arandığında ise o lokasyon için dizilim görüntüler. ENSEMBL
veri tabanı üzerinde özelleştirilmiş analiz araçları mevcuttur. BioMart ve BLAST
bu analiz araçlarındandır.
GenBank: GenBank Amerika kaynaklı NCBI
tarafından oluşturulmuş olan bir veri tabanıdır. İnternet sitesinden kolaylıkla ulaşılabilir.
Belirli bir gen için arama ve DNA dizilimi yapar. ENSEMBL’ dan farklı olarak
bir gen hakkındaki genel bilgiler dışında, gen ile
ilgili yayınlanmış makaleler ve genin dizilim güncellemeleri ile ilgili bilgileri de araştırmacıya sunar.
Nükleotid dizilimli veri
tabanlarının yanı sıra, protein veri tabanları da mevcuttur.
Protein Veri Tabanları
Proteinler, aminoasitlerin
birbirlerine bağlanması sonucu oluşan büyük organik bileşiklerdir. Her amino
asit bir harf ile gösterilir. Yani bu durumda protein dizileri de nükleotid
dizilerinde olduğu gibi FASTA formatı ile gösterilebilir. Protein veri
tabanları 3 kısma ayrılmıştır; UniProt, InterPro, PDB.
UniProt, protein dizilimleri ve fonksiyonu
için kullanılan bir veri tabanıdır. European Bioinformatics Institute
(EMBL-EBI), Swiss Institute of
Bioinformatics (SIB) ve Protein Information Resource (PIR) enstitü ve
kaynaklarının işbirliği sonucu oluşmuş olan bir veri tabanıdır. UniProt veri
tabanı üç farklı kısma ayrılır; UniProt bilgi tabanı (UniProtKB), UniProt Reference Kümeleri (UniRef), ve UniProt Arşivi (UniParc). Bir
proteine ait birçok detaylı bilgiyi araştırmacıya sunar. Her proteine ait
spesifik bir kimlik numarası içerir.
InterPro, Avrupa tabanlı, EBI sisteminden
erişilebilir bir veri tabanıdır. Proteinleri anlamak ve protein aileleri ile
ilişkilendirmek için kullanılan bir veri tabanıdır. Proteinlerin dizi analizi
ve sınıflandırılması yapılabilir. Proteinleri sınıflandırırken tahmin edilir
modeller kullanır. Bu modeller “signature” olarak bilinir.
PDB: Avrupa tabanlı olan PDBe (
Protein DataBank in Europe) ve Amerikan tabanlı olan PDB (Protein Databank)
ortak çalışmakta olup proteinlerin üç boyutlu (3D) yapısını depolar. Her bir
yapı için ayrı ayrı detaylı analizler ve şematik sistemler içerir. UniProt protein
veri tabanında araştırılan bir proteinin yapısı
hakkında bilgi edinmek
için, PDBe veri tabanı UniProt’ dan
elde edilen kimlik numarası ile sorgulanabilir.
Yukarıda bahsettiğimiz veri tabanları
sayesinde nükleotidler, proteinler ve bu yapıların işlevleri, fonksiyonları ile
ilgili verilere rahatlıkla ulaşabiliriz. Fakat istenmeyen verileri filtrelemek,
elde edilen veriler arasında bağlantılar kurmak ve daha kapsamlı araştırmalar
yapabilmek için biyoinformatikte analiz araçları geliştirilmiştir.
• Veri Madenciliği: BioMART
• Dizi hizalama: CLUSTAL
• Dizi karşılaştırma: BLAST
Bu analiz araçlarından olan
BLAST hakkında bir sonraki yazımızda detaylı bilgiler vereceğiz😄
Kaynakça
- Atalay R.Ç, Neden Biyoinformatik?,Avrasya Dosyası,Moleküler Biyoloji ve Gen Teknolojileri Özel,Sonbahar 2002,Cilt 8,Sayı:3,129-141
- Yazağan Aslı, Biyolojik veritabanları ve Biyoinformatik Analiz Araçları
- Mümin Polat, A. G. (2009). Multidisipliner yeni bir bilim dalı: biyoinformatik ve tıpta uygulamaları
- About UniProt https://www.uniprot.org/help/about
Yorumlar
Yorum Gönder