Makine Öğrenmesi ve Biyoinformatik Alanında Kullanımı
Herkese merhaba sevgili
okuyucularımız,
Uzun bir aradan sonra “Makine
Öğrenmesi ve Biyoinformatik Alanında Kullanımı” adlı yazımızla bilgi paylaşmaya
devam ediyoruz.
Bloğumuzda şu zamana dek genelde daha çok biyoloji ve genetik tabanlı yazılara
yer vermiştik. Şimdi ise biraz daha işin bilgisayar ile ilgili olan kısmına
giriş yapalım istiyoruz. Çünkü sizlerin de bildiği gibi, biyoinformatik
denilince akla yalnızca genetik, biyoloji, genler, proteinler vs. gelmiyor. Bu
alanın ilişkili olduğu daha birçok bilim dalı var, örneğin; enformatik, matematik,
bilgisayar mühendisliği, veri madenciliği, yazılım vs. Öncelikle makine
öğrenmesi nedir, türleri nedir gibi genel noktalara değinelim.
Makine Öğrenmesi Tanımı
Makine öğrenmesi yapay zekanın
bir alt alanıdır. Bilgi teknoloji sistemlerinin veri tabanlarındaki örüntüleri
tanıyarak sorunlara bağımsız olarak çözüm bulma yeteneğini ifade eder. Başka
bir deyişle; makine öğrenmesi, bilgi teknoloji sistemlerinin mevcut
algoritmalar ve veri kümeleri temelinde kalıpları tanımasını ve yeterli çözüm
kavramları geliştirmesini sağlar. Bu nedenle, makine öğrenmesinde yapay bilgi,
deneyim temelinde üretilir.
Makine öğrenmesinde, veri
kümelerinden öğrenmek için istatistiksel ve matematiksel yöntemler kullanılır.
Bunun için birçok farklı yöntem vardır, bu sayede bir yandan sembolik
yaklaşımlar, diğer yandan alt-sembolik yaklaşımlar olmak üzere iki sistem
arasında genel bir ayrım yapılabilir. Sembolik sistemler, örneğin bilgi
içeriğinin, yani uyarılmış kuralların ve örneklerin açıkça temsil edildiği
öneri sistemleri olmakla birlikte, alt-sembolik sistemler yapay nöronal
ağlardır. Bunlar, bilgi içeriğinin dolaylı olarak temsil edildiği insan beyni
prensibi üzerinde çalışır.
Makine Öğrenmesi Türleri
Temel olarak, algoritmalar makine
öğrenmesinde önemli bir rol oynar. Bir yandan, kalıpları tanımaktan
sorumludurlar, diğer yandan çözüm üretebilirler. Algoritmalar farklı
kategorilere ayrılabilir:
Denetimli öğrenme: İzlenen öğrenme sırasında örnek modeller önceden
tanımlanır. Bilgilerin algoritmaların ilgili model gruplarına yeterli bir
şekilde tahsis edilmesini sağlamak için, bunların belirtilmesi gerekir. Başka
bir deyişle, sistem verilen girdi ve çıktı çiftlerine göre öğrenir.
Denetimsiz öğrenme: Denetimsiz öğrenmede yapay zeka, önceden
tanımlanmış hedef değerleri olmadan öğrenir. Esas olarak segmentasyon
(kümeleme) öğrenmek için kullanılır. Makine, girilen verileri belirli
özelliklere göre yapılandırmaya ve sıralamaya çalışır.
Kısmen denetlenen öğrenme: Kısmen denetimli öğrenme, denetimli ve
denetimsiz öğrenmenin birleşimidir.
Takviyeli Öğrenme: Algoritma, belirli bir duruma tepki vermesi
gereken olumlu veya olumsuz bir etkileşim ile öğretilir.
Makine öğrenmesi, büyük
miktardaki verilerin analizini sağlar. Kazançlı fırsatları veya tehlikeli
riskleri tanımlamak için genellikle daha hızlı, daha doğru sonuçları verirken,
uygun şekilde düzenlemek için ek zaman ve kaynak gerektirebilir. Makine öğrenmesini
yapay zeka ve bilişsel teknolojilerle birleştirmek, büyük miktarlardaki
bilgileri işlemede daha da etkili hale getirebilir.
Makine öğrenmesinin kullanıldığı
alanlardan bazıları şunlardır; borsa analizi, kredi kartı dolandırıcılık
tespiti, otomatik teşhis prosedürleri vs.
Makine Öğrenmesinin Biyoinformatik Alanında Kullanımı
Öncelikle
biyoinformatiğin biyolojik verinin aşamalarını çözmek ve aynı zamanda veriyi
anlamak için bilgisayar ve matematik yaklaşımlarıyla birlikte çalıştığını
biliyoruz, bu konuya önceki yazılarımızda da değinmiştik.
Biyoinformatik,
biyolojik veri keşifleri yapma ve veriyi analiz etme yollarının geliştirildiği
yeni bilişimsel metodlarla içiçe geçmiş durumdadır. Mesela, genetik ve genomik
kavramlarının görevleri, bir organizmanın DNA setini sıralama ve açıklama
işlemleridir. Sinir bilimde kullanılan görüntüleme teknikleri (bilgisayarlı
tomografi (CF),pozitron emisyon tomografisi (PET)) canlı organizma beyinleri
üzerinde yapılan sinir sisteminin içerde nasıl çalıştığına dair kullanılan
tekniklerdir. Makine öğrenmesin biyolojik ve nörogörüntüleme verilerine
uygulanması biyomedikal alanda kanser, nörodejeneratif ve psikiyatrik gibi
karmaşık hastalıkların anlaşılması anlamında sınırları genişletir. Bu alandaki
gelişmeler, bireysel değişkenlik, yaşam tarzı ve çevreyi göz önünde bulunduran
özel tıbbi tedavileri hedef alan otomatik tanılama araçlarının ve hassas tıbbın
geliştirilmesine yol açabilir ve “kişiye özel tıp “ kavramının son yıllarda
ayrıca yükselişe geçtiği bu dönemde kullanılabilecek en yararlı yöntemlerin
başında da makine öğrenmesinin geldiğini söylemek yanlış olmaz.
Makine öğrenmesi metotlarının uygulandığı konuların sınıflandırılması[1] |
Makine öğrenmesinin biyolojik uygulama alanlarına
gelecek olursak bunlar: genomik, proteomik (buraya tıklayarak omik veri ile ilgili yazımıza ulaşabilirsiniz), mikrodiziler,
sistem biyolojisi, evrim ve metin madenciliği alanlarıdır.
Bildiğiniz gibi genomik,
biyoinformatikte en önemli alanlardan biridir. Son zamanlarda artan
kullanılabilir dizi sayısının artmasıyla birlikte yararlı bilgilerin elde
edilmesi için artmakta olan dizi sayısının işlenmesi ihtiyacı doğmuştur.
Genomik alanında da bunu genom dizilerinden genlerin yapısını bulmak hatta daha
da ileri giderek düzenleyici elemanların ve kodlayıcı olmayan RNA genlerinin
tanımlanması ve hesaplanması açısından ele alınmaktadır. Ayrıca dizi bilgisi
gen fonksiyonu ve RNA [2] –sekonder- yapı tahmini için de kullanılmaktadır.
Genler bilgiyi içeriyorsa, proteinler bu
bilgiyi hayata dönüştüren işçilerdir. Proteinler yaşam sürecinde çok önemli bir
rol oynarlar ve üç boyutlu yapıları işlevselliklerinde anahtar bir özelliktir.
Proteomik alanında, hesaplama yöntemlerinin ana uygulaması protein yapısı
tahminidir. Proteinler binlerce atom ve sınır içeren çok karmaşık
makromoleküllerdir. Bu nedenle, olası yapıların sayısı çok fazladır. Bu,
protein yapısı tahminini, optimizasyon tekniklerinin gerekli olduğu çok
karmaşık bir kombinatoryal problem haline getirir. Proteomikte, genomikte de olduğu
gibi, protein fonksiyon tahmini için makine öğrenme teknikleri uygulanır.
Hesaplamalı yöntemlerin
biyolojide bir başka ilginç uygulaması, karmaşık deneysel verilerin analizi
yönetimidir. Mikrodizi denemeleri, bu tür verilerin toplandığı en iyi bilinen
(ancak tek değil) alandır. Karmaşık deneysel veriler iki farklı soruna yol
açar. İlk olarak, verilerin ön işleme tabi tutulması gerekir, yani makine
öğrenme algoritmaları tarafından uygun şekilde kullanılacak şekilde
değiştirilmelidir. İkincisi, aradığımız şeye bağlı olan verilerin analizi.
Mikrodizi verisi durumunda, en tipik uygulamalar ifade kalıbı (pattern)
tanımlama, sınıflandırma ve genetik ağ indüksiyonudur.
Sistem biyolojisi, biyoloji ve
makine öğreniminin birlikte çalıştığı bir diğer alandır. Hücrenin içinde
gerçekleşen yaşam süreçlerini modellemek çok karmaşıktır. Dolayısıyla,
biyolojik ağların, özellikle genetik ağların, sinyal iletim ağlarının ve
metabolik yolların modellenmesinde hesaplama teknikleri son derece yararlıdır.
Evrim ve özellikle filogenetik
ağaç oluşturulması da makine öğrenme tekniklerinden yararlanır. Filogenetik
ağaçlar organizmaların evriminin sinematik temsilleridir. Geleneksel olarak,
farklı özelliklere (morfolojik özellikler, metabolik özellikler, vb.) göre inşa
edilmişlerdir, ancak günümüzde, çok miktarda genom dizisi ile filogenetik ağaç
yapım algoritmaları farklı genomlar arasındaki karşılaştırmaya
dayanmaktadır[3]. Bu karşılaştırma, optimizasyon tekniklerinin çok faydalı
olduğu çoklu dizi hizalaması vasıtasıyla yapılır.
Hesaplamalı tekniklerin artan
veri miktarına uygulanmasının bir yan etkisi, mevcut yayınlardaki artıştır. Bu,
bilginin çıkarılması için metin madenciliği tekniklerinin gerekli olduğu yeni
bir değerli bilgi kaynağı sağlar. Bu nedenle, metin madenciliği hesaplama
biyolojisinde giderek daha ilginç hale gelmektedir ve fonksiyonel açıklama,
hücresel konum tahmini ve protein etkileşim analizinde uygulanmaktadır.
Burada makine öğrenmesinin
biyolojik uygulama alanlarına dair bahsedilenler, çeşitli makine öğrenmesi
algoritmaları uygulanarak veriyi doğru okuma ve anlamlandırma çalışmalarıyla
ulaşılan sonuçların ne kadar değerli hale geldiğini ve artan bu veri
popülasyonu içerisinde doğru veriye doğru algoritmayla yaklaşmak gerektiğine
dikkat edilmesi en önemli noktalardan biridir diyebiliriz.
Umarız sizlerin de beğeneceği bir
yazı olmuştur. Belirtmek isteriz ki yorumlarınıza ve tavsiyelerinize her zaman
açığız J.
Kaynaklar
[1] Pedro Larrañaga et.al, Briefings in Bioinformatics 7:1, 2006
[2] Carter RJ, Dubchak I, Holbrook SR. A computational approach to identify genes for
functional RNAs in genomic sequence. Nucleic Acids Research 2001;29(19): 3928–38.
[3]Baldi P, Brunak S. Bioinformatics. The Machine Learning Approach. MIT Press, 2001.
Türkiye Yapay Zeka Platformu, 6 Kasım 2020 tarihinde İstanbul/Kağıthane’de kurulmuştur. Kurucusu Yapay Zeka Mühendisliği Öğrencisi Emirhan BULUT, yüksek ve benzersiz inovasyon fikri ile platformu dünyaya sunmuştur. İnsanların derin öğrenme ve makine öğrenimi üzerinde çalışmaları günümüzde oldukça arttı. Artan bu çalışmalar yapay zekanın kısa sürede oldukça gelişmesine sebep oldu. Türkiye’de bu anlamda çalışmalarımızı sürdürme gayretindeyiz. Dünya’da bağımsız olarak hızla gelişen teknoloji artık yapay zeka dünyasında büyük bir ivme ile kendini göstermektedir. Türkiye’de yapay zeka alanında gelişimin önemli boyutlarda olması nedeniyle Türkiye Yapay Zeka (Turkey Artificial Intelligence) hızla çalışmaktadır. Platformumuzun amacı, dünyada bulunan insanların yapay zeka alanında refahını artırmak ve insan hayatını kolaylaştırmaktır. Bu amaç doğrultusunda platformumuz çalışmalarını dik duruşuyla devam ettirmektedir. Platformumuzun bir diğer kuruluş amacı ise, dünyada iyiliği artırmak, yapay zekanın kullanımını insanların hayatını kolaylaştırmak ve refahını artırmak için benzersiz projeler üretmektir. Yapay Zeka Mühendisliği Sıralama adı altında kurulan ilk ve tek yapay zeka platformudur. Yapay zekayı insan yararına geliştirmeyi teşvik etmektedir.
YanıtlaSil