Biyoinformatik Araştırmacılarının Vazgeçilmezi: NCBI, InterPro, KEGG Her Uzmanın Bilmesi Gereken Veritabanları

Pınar YILDIZ
5 min readJan 16, 2024

--

Genomik nedir? ve bu alanda kullanılan temel kavramlara ilk Medium yazımda değinmiştim.Şimdi ise bu kavramlar çerçevesinde, özellikle genomik veritabanlarının kataloglanması üzerine odaklanacağız.

NCBI

NCBI, biyoteknoloji ve biyomedikal araştırmalarda dünya çapında bir liderdir.Genomik veriler, protein dizileri, klinik çalışmalar ve daha fazlasını içeren geniş bir veri tabanı koleksiyonuna sahiptir ve kullanıcı dostu bir arayüz ile erişilebilirliği artırır. Bu özellikler, genetik ve moleküler biyoloji araştırmalarını kolaylaştırır.Daha fazla bilgi için NCBI’nin web sitesini ziyaret edebilirsiniz: NCBI Web Sitesi.

NCBI’nin Temel Özellikleri

PubMed: Biyomedikal literatür için birincil kaynak. Milyonlarca makale ve bilimsel yayına erişim sağlar.

GenBank: Genetik diziler için kapsamlı bir veritabanı. GenBank, türler arası genetik bilgi paylaşımı için kullanılır.

BLAST: Biyolojik dizileri karşılaştırmak için kullanılan bir araç. BLAST, benzer dizileri bulmak ve fonksiyonel ilişkileri anlamak için kullanılır.

NCBI Datasets sayfası, genomik karşılaştırmalar için BLAST yöntemini kullanarak genetik verilerle çalışmayı kolaylaştırır. Bu sayfa, çeşitli genomları indirebileceğiniz alanları sunar, böylece araştırmalarınızda daha hızlı ve etkili bir şekilde ilerleyebilirsiniz:

  1. Taxonomy: Organizmaların sınıflandırılmasını ve hiyerarşik yapısını incelemek için kullanılır.
  2. Genome: Çeşitli organizmaların tam genom dizilerine ve ilgili genetik bilgilere erişim sağlar.
  3. Gene: Belirli genlerin işlevleri, dizileri ve genetik materyalleri hakkında detaylı bilgi verir.
  4. Protein: Protein dizileri ve yapıları hakkında bilgi sunar.
  5. Sequence: Özel DNA veya RNA dizilerini aramak ve incelemek için kullanılır.
  6. SRA: Dizi okuma arşivine (Sequence Read Archive) erişim sağlar ve genetik dizilim verilerini inceleme imkanı tanır.
  7. GEO: Gen ifadesi ve moleküler profilleme çalışmalarından elde edilen verilere erişim sağlar.

InterPro

InterPro, biyoinformatik çalışmalarında proteinlerin işlevlerini ve yapılarını anlamak için kritik bir araçtır. Proteinlerin ailelerini, etki alanlarını ve sitelerini sınıflandırarak geniş bir veritabanı sunar. Araştırmacılar, proteinlerin işlevsel özelliklerini ve evrimsel ilişkilerini daha iyi anlayabilmek için InterPro’yu kullanır. Ayrıca, proteinlerin biyolojik rollerini ve patolojik süreçlerdeki etkilerini keşfetmekte de önemli bir rol oynar. Kullanıcı dostu arayüzü ve kapsamlı veritabanı, InterPro’yu biyolojik araştırmalar için vazgeçilmez bir kaynak yapar.Daha fazla bilgi için InterPro’nin web sitesini ziyaret edebilirsiniz.

InterPro’da bulunan Search kısmın’daki “by sequence”, “by text”, “by domain architecture” arama seçenekleri şu şekilde işlev görür:

  1. By Sequence: Bu bölüm, kullanıcıların protein veya DNA/RNA dizilerini yükleyerek ilgili protein aileleri, etki alanları ve diğer yapısal özelliklerle eşleştirilmesini sağlar. Dizi analizi yapılarak ilgili biyolojik bilgiler edinilebilir.
  2. By Text: Bu arama seçeneği, belirli bir protein, gen veya diğer biyolojik terimlerle ilgili bilgi aramak için kullanılır. Metin tabanlı arama ile ilgili proteinlerin sınıflandırılması ve işlevleri hakkında bilgi edinilebilir.
  3. By Domain Architecture: Bu özellik, proteinlerin etki alanı mimarilerini araştırmak için kullanılır. Proteinlerin yapısal özellikleri ve etki alanlarındaki benzerlikler bu arama ile incelenebilir.

Bu arama seçenekleri, proteinlerin işlevsel ve yapısal özelliklerini derinlemesine analiz etmek için değerli araçlardır. Daha fazla bilgi için InterPro’nun ilgili web sayfasını ziyaret edebilirsiniz: InterPro Sequence Search.

InterPro’da bulunan Browse bölümünde yer alan “InterPro Type” kategorisinde InterPro girişlerinin sınıflandırıldığı beş kategori bulunmaktadır.

  • Homologous Superfamily: Proteinlerin, benzer yapı ve fonksiyonları paylaşarak geniş bir evrimsel aileden geldiğini gösterir.
  • Family: Proteinlerin benzer yapı ve işlevleri paylaşarak daha dar bir evrimsel aileden geldiğini ifade eder.
  • Domain: Proteinin yapısının veya fonksiyonunun bir alt birimi olup, farklı işlevlerin gerçekleştirilmesine olanak tanır.
  • Repeat: Protein içinde tekrar eden yapısal veya fonksiyonel birimleri belirtir, bu da karmaşık işlevlerin yerine getirilmesini sağlar.
  • Site: Proteinin işlevsel olarak önemli bölgesini işaret eder, substrat bağlama veya kimyasal reaksiyonları katalizleme gibi rolleri içerir.

Detaylı bilgi için InterPro’nun ilgili web sayfasını ziyaret edebilirsiniz: InterPro Web Sayfası.

InterPro’da bulunan Browse bölümünde yer alan “ACCESSION ” kategorisinde bulunan numaralar:

IPR000001, InterPro’da tanımlanan bir protein ailesi için kullanılan bir InterPro accession numarasıdır. Bu numara, proteinin InterPro veritabanındaki benzer proteinlerle ilişkisini tanımlamak için kullanılır.

InterPro accession numaraları, “IPR” öneki ve ardından dört veya beş harfli bir numaradan oluşur. Bu numaralar, InterPro veritabanındaki proteinlerin benzerlik derecesine göre atanır. Daha yüksek bir InterPro accession numarası, proteinin daha benzer proteinlerle ilişkili olduğunu gösterir.

Örneğin, IPR000001, “Kringle” olarak bilinen bir protein ailesinin üyesi olan bir protein için kullanılan bir InterPro accession numarasıdır.

InterPro accession numaraları, proteinlerin yapısını, fonksiyonunu ve evrimini anlamamıza yardımcı olan önemli bir araçtır. Bu numaraları kullanarak, benzer proteinleri tanımlayabilir ve proteinlerin biyolojik sistemlerde nasıl işlediğini daha iyi anlayabiliriz.

InterPro accession numaralarının örnekleri şunlardır:

  • IPR000001 — Kringle family
  • IPR000022 — DNA-binding domain
  • IPR000033 — Protein kinase domain
  • IPR000044 — Metalloprotease domain
  • IPR000055 — GTPase domain

InterPro’da bulunan Browse bölümünde yer alan “GO Terms” kategorisinde bulunan BP, MF, CC kısaltmaları, Gene Ontology (GO) kavramlarına aittir. Bu terimler, proteinlerin biyolojik rollerini ve özelliklerini sınıflandırmak için kullanılır:

  • BP (Biyolojik Süreç): Proteinin katıldığı biyolojik süreçleri ifade eder. Örneğin, DNA tamiri, fotosentez gibi süreçler bu kategori altında yer alır.
  • MF (Moleküler Fonksiyon): Proteinin moleküler düzeydeki işlevini tanımlar. Enzim aktivitesi, bağlanma özellikleri gibi işlevsel roller bu kategoriye girer.
  • CC (Hücresel Bileşen): Proteinin hücre içinde bulunduğu yeri veya yapıyı belirtir. Örneğin, hücre zarı, çekirdek, mitokondri gibi hücresel yapılar bu kategoride sınıflandırılır.

Bu terimler, proteinlerin işlevlerini ve etkileşimlerini daha iyi anlamak için önemlidir. Daha fazla bilgi için InterPro’nun ilgili web sayfasını ziyaret edebilirsiniz: InterPro GO Terms.

KEGG

KEGG (Kyoto Encyclopedia of Genes and Genomes) bir biyoinformatik kaynaktır ve ana sayfasında, genetik ve metabolik bilgilerin kapsamlı bir şekilde ele alındığı bir dizi araç ve veritabanında oluşmaktadır.Bu araçlar, genlerin işlevlerini, metabolik yolları, hücresel süreçleri ve hastalıkları anlamak için kullanılır. Diğer veritabanlarından farklı olarak, KEGG, genlerin ve proteinlerin işlevlerini, metabolik yollar ve ekosistemlerle bütünleşik bir şekilde gösterir.Genetik bilgiyi somut biyokimyasal süreçlerle ilişkilendirerek araştırmacılara derinlemesine bir anlayış sunar. Bu platform, biyolojik araştırmalar ve veri analizi için değerli bir kaynaktır. Daha fazla detay ve bilgi için KEGG’in web sitesini ziyaret edebilirsiniz: KEGG Web Sayfası.

NCBI, InterPro ve KEGG, biyoinformatik alanında kullanılan önemli kaynaklardır, ancak farklı amaçlar için tercih edilirler:

NCBI: Geniş bir veritabanı koleksiyonuna sahip olup genel genetik ve biyomedikal araştırmalar için idealdir. Özellikle gen ve protein dizileri, tıbbi literatür ve genetik varyasyonlar üzerine odaklanır.

InterPro: Proteinlerin sınıflandırılması ve işlevsel analizi üzerine yoğunlaşır. Protein aileleri, etki alanları ve moleküler işlevler hakkında derinlemesine bilgi sağlar.

KEGG: Metabolik yollar ve biyokimyasal süreçlerin kapsamlı haritalarını sunar. Genetik bilginin biyokimyasal işlevlerle entegrasyonuna odaklanır.

Araştırma ihtiyaçlarına göre bu kaynaklar arasında seçim yapılabilir. Genel genetik bilgi için NCBI, proteinlerin detaylı analizi için InterPro ve metabolik süreçlerin anlaşılması için KEGG tercih edilebilir.

Bu medium yazım, Miuul Biyoinformatik Bootcamp’inde devam etmekte olan eğitimim ve eğitmenim Zeynep Akdeniz’in rehberliği sayesinde oluşturuldu. Onun yaklaşımı, öğrenme sürecime önemli katkılar sağlıyor. Bu eğitim sürecinde edindiğim bilgi ve deneyimler için kendisine teşekkür ediyorum. Biyoinformatik alanında daha fazla bilgi edinmek isteyenler için Miuul Biyoinformatik Bootcamp web sitesini ziyaret etmelerini tavsiye ederim.

--

--