Makine Öğrenmesi ve Biyoinformatik Alanında Kullanımı


Herkese merhaba sevgili okuyucularımız,
Uzun bir aradan sonra “Makine Öğrenmesi ve Biyoinformatik Alanında Kullanımı” adlı yazımızla bilgi paylaşmaya devam ediyoruz. Bloğumuzda şu zamana dek genelde daha çok biyoloji ve genetik tabanlı yazılara yer vermiştik. Şimdi ise biraz daha işin bilgisayar ile ilgili olan kısmına giriş yapalım istiyoruz. Çünkü sizlerin de bildiği gibi, biyoinformatik denilince akla yalnızca genetik, biyoloji, genler, proteinler vs. gelmiyor. Bu alanın ilişkili olduğu daha birçok bilim dalı var, örneğin; enformatik, matematik, bilgisayar mühendisliği, veri madenciliği, yazılım vs. Öncelikle makine öğrenmesi nedir, türleri nedir gibi genel noktalara değinelim.

Makine Öğrenmesi Tanımı


Makine öğrenmesi yapay zekanın bir alt alanıdır. Bilgi teknoloji sistemlerinin veri tabanlarındaki örüntüleri tanıyarak sorunlara bağımsız olarak çözüm bulma yeteneğini ifade eder. Başka bir deyişle; makine öğrenmesi, bilgi teknoloji sistemlerinin mevcut algoritmalar ve veri kümeleri temelinde kalıpları tanımasını ve yeterli çözüm kavramları geliştirmesini sağlar. Bu nedenle, makine öğrenmesinde yapay bilgi, deneyim temelinde üretilir. 

Makine öğrenmesinde, veri kümelerinden öğrenmek için istatistiksel ve matematiksel yöntemler kullanılır. Bunun için birçok farklı yöntem vardır, bu sayede bir yandan sembolik yaklaşımlar, diğer yandan alt-sembolik yaklaşımlar olmak üzere iki sistem arasında genel bir ayrım yapılabilir. Sembolik sistemler, örneğin bilgi içeriğinin, yani uyarılmış kuralların ve örneklerin açıkça temsil edildiği öneri sistemleri olmakla birlikte, alt-sembolik sistemler yapay nöronal ağlardır. Bunlar, bilgi içeriğinin dolaylı olarak temsil edildiği insan beyni prensibi üzerinde çalışır.

Makine Öğrenmesi Türleri

Temel olarak, algoritmalar makine öğrenmesinde önemli bir rol oynar. Bir yandan, kalıpları tanımaktan sorumludurlar, diğer yandan çözüm üretebilirler. Algoritmalar farklı kategorilere ayrılabilir:

Denetimli öğrenme: İzlenen öğrenme sırasında örnek modeller önceden tanımlanır. Bilgilerin algoritmaların ilgili model gruplarına yeterli bir şekilde tahsis edilmesini sağlamak için, bunların belirtilmesi gerekir. Başka bir deyişle, sistem verilen girdi ve çıktı çiftlerine göre öğrenir.

Denetimsiz öğrenme: Denetimsiz öğrenmede yapay zeka, önceden tanımlanmış hedef değerleri olmadan öğrenir. Esas olarak segmentasyon (kümeleme) öğrenmek için kullanılır. Makine, girilen verileri belirli özelliklere göre yapılandırmaya ve sıralamaya çalışır.

Kısmen denetlenen öğrenme: Kısmen denetimli öğrenme, denetimli ve denetimsiz öğrenmenin birleşimidir.

Takviyeli Öğrenme: Algoritma, belirli bir duruma tepki vermesi gereken olumlu veya olumsuz bir etkileşim ile öğretilir.

Makine öğrenmesi, büyük miktardaki verilerin analizini sağlar. Kazançlı fırsatları veya tehlikeli riskleri tanımlamak için genellikle daha hızlı, daha doğru sonuçları verirken, uygun şekilde düzenlemek için ek zaman ve kaynak gerektirebilir. Makine öğrenmesini yapay zeka ve bilişsel teknolojilerle birleştirmek, büyük miktarlardaki bilgileri işlemede daha da etkili hale getirebilir.
Makine öğrenmesinin kullanıldığı alanlardan bazıları şunlardır; borsa analizi, kredi kartı dolandırıcılık tespiti, otomatik teşhis prosedürleri vs.

Makine Öğrenmesinin Biyoinformatik Alanında Kullanımı

Öncelikle biyoinformatiğin biyolojik verinin aşamalarını çözmek ve aynı zamanda veriyi anlamak için bilgisayar ve matematik yaklaşımlarıyla birlikte çalıştığını biliyoruz, bu konuya önceki yazılarımızda da değinmiştik.  

Biyoinformatik, biyolojik veri keşifleri yapma ve veriyi analiz etme yollarının geliştirildiği yeni bilişimsel metodlarla içiçe geçmiş durumdadır. Mesela, genetik ve genomik kavramlarının görevleri, bir organizmanın DNA setini sıralama ve açıklama işlemleridir. Sinir bilimde kullanılan görüntüleme teknikleri (bilgisayarlı tomografi (CF),pozitron emisyon tomografisi (PET)) canlı organizma beyinleri üzerinde yapılan sinir sisteminin içerde nasıl çalıştığına dair kullanılan tekniklerdir. Makine öğrenmesin biyolojik ve nörogörüntüleme verilerine uygulanması biyomedikal alanda kanser, nörodejeneratif ve psikiyatrik gibi karmaşık hastalıkların anlaşılması anlamında sınırları genişletir. Bu alandaki gelişmeler, bireysel değişkenlik, yaşam tarzı ve çevreyi göz önünde bulunduran özel tıbbi tedavileri hedef alan otomatik tanılama araçlarının ve hassas tıbbın geliştirilmesine yol açabilir ve “kişiye özel tıp “ kavramının son yıllarda ayrıca yükselişe geçtiği bu dönemde kullanılabilecek en yararlı yöntemlerin başında da makine öğrenmesinin geldiğini söylemek yanlış olmaz.

Makine öğrenmesi metotlarının uygulandığı konuların sınıflandırılması[1]


Makine öğrenmesinin biyolojik uygulama alanlarına gelecek olursak bunlar: genomik, proteomik (buraya tıklayarak omik veri ile ilgili yazımıza ulaşabilirsiniz), mikrodiziler, sistem biyolojisi, evrim ve metin madenciliği alanlarıdır.

Bildiğiniz gibi genomik, biyoinformatikte en önemli alanlardan biridir. Son zamanlarda artan kullanılabilir dizi sayısının artmasıyla birlikte yararlı bilgilerin elde edilmesi için artmakta olan dizi sayısının işlenmesi ihtiyacı doğmuştur. Genomik alanında da bunu genom dizilerinden genlerin yapısını bulmak hatta daha da ileri giderek düzenleyici elemanların ve kodlayıcı olmayan RNA genlerinin tanımlanması ve hesaplanması açısından ele alınmaktadır. Ayrıca dizi bilgisi gen fonksiyonu ve RNA [2] –sekonder- yapı tahmini için de kullanılmaktadır. 

Genler bilgiyi içeriyorsa, proteinler bu bilgiyi hayata dönüştüren işçilerdir. Proteinler yaşam sürecinde çok önemli bir rol oynarlar ve üç boyutlu yapıları işlevselliklerinde anahtar bir özelliktir. Proteomik alanında, hesaplama yöntemlerinin ana uygulaması protein yapısı tahminidir. Proteinler binlerce atom ve sınır içeren çok karmaşık makromoleküllerdir. Bu nedenle, olası yapıların sayısı çok fazladır. Bu, protein yapısı tahminini, optimizasyon tekniklerinin gerekli olduğu çok karmaşık bir kombinatoryal problem haline getirir. Proteomikte, genomikte de olduğu gibi, protein fonksiyon tahmini için makine öğrenme teknikleri uygulanır.

Hesaplamalı yöntemlerin biyolojide bir başka ilginç uygulaması, karmaşık deneysel verilerin analizi yönetimidir. Mikrodizi denemeleri, bu tür verilerin toplandığı en iyi bilinen (ancak tek değil) alandır. Karmaşık deneysel veriler iki farklı soruna yol açar. İlk olarak, verilerin ön işleme tabi tutulması gerekir, yani makine öğrenme algoritmaları tarafından uygun şekilde kullanılacak şekilde değiştirilmelidir. İkincisi, aradığımız şeye bağlı olan verilerin analizi. Mikrodizi verisi durumunda, en tipik uygulamalar ifade kalıbı (pattern) tanımlama, sınıflandırma ve genetik ağ indüksiyonudur.
Sistem biyolojisi, biyoloji ve makine öğreniminin birlikte çalıştığı bir diğer alandır. Hücrenin içinde gerçekleşen yaşam süreçlerini modellemek çok karmaşıktır. Dolayısıyla, biyolojik ağların, özellikle genetik ağların, sinyal iletim ağlarının ve metabolik yolların modellenmesinde hesaplama teknikleri son derece yararlıdır.

Evrim ve özellikle filogenetik ağaç oluşturulması da makine öğrenme tekniklerinden yararlanır. Filogenetik ağaçlar organizmaların evriminin sinematik temsilleridir. Geleneksel olarak, farklı özelliklere (morfolojik özellikler, metabolik özellikler, vb.) göre inşa edilmişlerdir, ancak günümüzde, çok miktarda genom dizisi ile filogenetik ağaç yapım algoritmaları farklı genomlar arasındaki karşılaştırmaya dayanmaktadır[3]. Bu karşılaştırma, optimizasyon tekniklerinin çok faydalı olduğu çoklu dizi hizalaması vasıtasıyla yapılır. 

Hesaplamalı tekniklerin artan veri miktarına uygulanmasının bir yan etkisi, mevcut yayınlardaki artıştır. Bu, bilginin çıkarılması için metin madenciliği tekniklerinin gerekli olduğu yeni bir değerli bilgi kaynağı sağlar. Bu nedenle, metin madenciliği hesaplama biyolojisinde giderek daha ilginç hale gelmektedir ve fonksiyonel açıklama, hücresel konum tahmini ve protein etkileşim analizinde uygulanmaktadır.

Burada makine öğrenmesinin biyolojik uygulama alanlarına dair bahsedilenler, çeşitli makine öğrenmesi algoritmaları uygulanarak veriyi doğru okuma ve anlamlandırma çalışmalarıyla ulaşılan sonuçların ne kadar değerli hale geldiğini ve artan bu veri popülasyonu içerisinde doğru veriye doğru algoritmayla yaklaşmak gerektiğine dikkat edilmesi en önemli noktalardan biridir diyebiliriz.
Umarız sizlerin de beğeneceği bir yazı olmuştur. Belirtmek isteriz ki yorumlarınıza ve tavsiyelerinize her zaman açığız J

Kaynaklar

[1] Pedro Larrañaga et.al, Briefings in Bioinformatics 7:1, 2006
[2] Carter RJ, Dubchak I, Holbrook SR. A computational approach to identify genes for
functional RNAs in genomic sequence. Nucleic Acids Research 2001;29(19): 3928–38.
[3]Baldi P, Brunak S. Bioinformatics. The Machine Learning Approach. MIT Press, 2001.

Yorumlar

  1. Türkiye Yapay Zeka Platformu, 6 Kasım 2020 tarihinde İstanbul/Kağıthane’de kurulmuştur. Kurucusu Yapay Zeka Mühendisliği Öğrencisi Emirhan BULUT, yüksek ve benzersiz inovasyon fikri ile platformu dünyaya sunmuştur. İnsanların derin öğrenme ve makine öğrenimi üzerinde çalışmaları günümüzde oldukça arttı. Artan bu çalışmalar yapay zekanın kısa sürede oldukça gelişmesine sebep oldu. Türkiye’de bu anlamda çalışmalarımızı sürdürme gayretindeyiz. Dünya’da bağımsız olarak hızla gelişen teknoloji artık yapay zeka dünyasında büyük bir ivme ile kendini göstermektedir. Türkiye’de yapay zeka alanında gelişimin önemli boyutlarda olması nedeniyle Türkiye Yapay Zeka (Turkey Artificial Intelligence) hızla çalışmaktadır. Platformumuzun amacı, dünyada bulunan insanların yapay zeka alanında refahını artırmak ve insan hayatını kolaylaştırmaktır. Bu amaç doğrultusunda platformumuz çalışmalarını dik duruşuyla devam ettirmektedir. Platformumuzun bir diğer kuruluş amacı ise, dünyada iyiliği artırmak, yapay zekanın kullanımını insanların hayatını kolaylaştırmak ve refahını artırmak için benzersiz projeler üretmektir. Yapay Zeka Mühendisliği Sıralama adı altında kurulan ilk ve tek yapay zeka platformudur. Yapay zekayı insan yararına geliştirmeyi teşvik etmektedir.

    YanıtlaSil

Yorum Gönder

Bu blogdaki popüler yayınlar

NCBI ve BLAST ' a Giriş

İnsan Genom Projesi

Biyoinformatikte Veri Tabanları