“En popüler 10 big data teknolojisi”ne yakından bakmadan önce big datanın ne olduğuna ve big data teknolojisinin ne anlama geldiğine biraz daha yakından bakmakta fayda var.
Big data yani büyük veri, boyut olarak çok büyük olan ve zamanla katlanarak artan geniş veri topluluğunu tanımlamak için kullanılan özel bir isim. Basitçe, stoklanması, araştırılması ve geleneksel yönetim araçlarıyla dönüştürülmesi, işlenmesi zor olan devasa miktarda veri anlamına geliyor.
“Büyük veri, gelişmiş içgörü ve karar alma için uygun maliyetli, yenilikçi bilgi işleme biçimleri gerektiren yüksek hacimli, hızlı ve çeşitli bilgi varlıklarıdır.”
Gartner
Big Data Teknolojisi Nedir?
Aslında, Büyük Veri Teknolojileri, veri madenciliği, veri depolama, veri paylaşımı ve veri görselleştirmeyi içeren yazılımdır. Verileri araştırmak ve dönüştürmek için kullanılan araçlar ve teknikleri içeren veri çerçevesini kapsar. Makine Öğrenimi, Derin Öğrenme, Yapay Zeka ve IoT gibi diğer teknolojilerle geniş ölçüde ilişkilendirilir.
Big data tekonolojileri operasyonel ve analitik olmak üzere ikiye ayrılabilir;
Operasyonel Big Data Teknolojileri
Çevrimiçi işlemler, sosyal medya veya büyük veri teknolojileri tabanlı yazılımlar aracılığıyla analiz için kullanılan belirli bir firmadan her türlü veri gibi günlük olarak üretilen veri miktarını gösterir. Analitik Büyük Veri Teknolojilerini besleyen ham veri olarak düşünülebilir.
Operasyonel Big Data Teknolojileri; yöneticilerin bir çokuluslu şirketteki ayrıntılarını, Amazon, Flipkart, Walmart, vb. firmalardan alınan çevrimiçi alım satım ve satın almaları, filmleri, uçuş, demiryolları ve otobüs vb. için çevrimiçi bilet rezervasyonu ve satın almasını içerir.
Analitik Big Data Teknolojileri
Operasyonel Big Dataya kıyasla biraz karmaşık olan Analitik Büyük Veri Teknolojileri gelişmiş bir big data versiyondur. İş kararları için çok önemli olan büyük verilerin gerçek araştırması bu bölümün altındadır. Bu alanda ele alınan bazı örnekler, stok pazarlama, hava tahmini, zaman serisi analizi ve tıbbi sağlık kayıtlarıdır.
En Popüler 10 Big Data Teknolojisi
Geçtiğimiz yıllardaki en önemli gelişmelerden birisi olan big data, hem pazarlama özelinde hem de işletme yönetiminde birçok değişikliği beraberinde getirdi. Ancak her şeyin dijitalleşmesi birçok riski de beraberinde getiriyor. İşte bu risklerle baş edebilmek için markaların en çok tercih ettikleri, en popüler 10 big data teknolojisi;
1. Yapay Zeka (Artificial Intelligence – AI)
Yapay Zeka, insan zekası gerektiren çeşitli görevleri yerine getirebilen akıllı makinelerin tasarlanmasıyla ilgilenen geniş bir bilgisayar bilimidir. AI’ın modellerini tasarlamak için insan zihni taklit edilmektedir.
Yapay zeka, SIRI’den sürücüsüz arabaya kadar çok hızlı bir şekilde gelişiyor. Disiplinler arası bir bilim dalı olarak, neredeyse her teknoloji endüstrisinde dikkate değer bir değişim yapmak için artırılmış makine öğrenimi ve derin öğrenme gibi birçok yaklaşımı dikkate alıyor.
Yapay zekanın en mükemmel tarafı ise belirli bir hedefe ulaşmada makul bir olasılık sağlayabilecek kararlar verme ve entelektüelleştirme gücü. Yani kendisi senaryolar içerisinden en iyisini seçebiliyor ve kendisini eğitebiliyor. AI, çeşitli sektörlerde fayda sağlamak için sürekli olarak gelişiyor. Örneğin, AI, ilaç tedavisi, hastaları iyileştirmek ve ameliyat yapmak için kullanılabilir.
2. NoSQL Veritabanı
En popüler 10 big data teknolojisi arasında NoSQL de yer alıyor. NoSQL, modern uygulamaları tasarlamak için geliştirilen çok çeşitli ayrı veritabanı teknolojileri içerir. Gerçek zamanlı web uygulamalarında ve büyük veri analitiğinde kullanılır.
Yapılandırılmamış verileri depolar ve daha hızlı performans sağlar ve çok çeşitli veri türleriyle büyük ölçekte uğraşırken esneklik sağlar. Örnekler arasında MongoDB, Redis ve Cassandra vardı.
Tasarımın bütünlüğünü, bir dizi cihaza daha kolay yatay ölçeklendirmeyi ve fırsatlar üzerinde kontrolü kolaylaştırmayı kapsar. İlişkisel veritabanlarında varsayılan olarak hesaplananlardan farklı veri yapılarını kullanır, NoSQL’de hesaplamaları daha hızlı hale getirir. Örneğin, Facebook, Google ve Twitter gibi şirketler her gün terabaytlarca kullanıcı verisi depolar.
3. R Programlama
R bir programlama dilidir ve açık kaynaklı bir projedir. İstatistiksel hesaplama, görselleştirme, Eclipse gibi birleşik geliştirme ortamları ve Visual Studio yardım iletişimi için oldukça kullanılan ücretsiz bir yazılımdır.
Veri madencileri ve istatistikçiler tarafından kullanılmakta olup, istatistiksel yazılımların tasarlanmasında ve veri analitiğinde yaygın olarak uygulanılmaktadır.
4. Veri Gölleri (Data Lakes)
Data Lakes ya da veri gölleri herhangi bir ölçekte yapılandırılmış ve yapılandırılmamış veriler açısından tüm veri formatlarını depolamak için konsolide bir havuz anlamına gelir.
Veri biriktirme sürecinde veriler, yapılandırılmış verilere dönüştürülmeden ve gösterge panosundan veri görselleştirmeden büyük veri dönüşümüne, gerçek zamanlı analitiğe ve makine öğrenimine kadar çok sayıda veri analizi gerçekleştirmeden olduğu gibi kaydedilebilir.
Veri göllerini kullanan kuruluşlar, rakiplerini yenme şansına sahip olacaklar. Sosyal medyadan ve tıklama akışlarından gelen veriler ve hatta IoT cihazlarının donma verileri veri göllerinde yeni analiz türleri ile yürütülebilir. Kuruluşların daha hızlı büyümesi için daha iyi fırsatları bilmelerine ve bunlara yanıt vermelerine yardımcı olan bir sistemdir.
5.Tahmine Dayalı Analitik (Predictive Analytics)
Büyük veri analitiğinin bir alt bölümü olarak, önceki veriler aracılığıyla gelecekteki davranışları tahmin etmeye çalışır. Gelecekteki olayları tahmin etmek için makine öğrenimi teknolojileri, veri madenciliği ve istatistiksel modelleme ve bazı matematiksel modeller kullanır.
Tahmine dayalı analitik bilimi, ilgi çekici bir hassasiyetle yaklaşan çıkarımlar üretir. Tahmine dayalı analitiğin araçları ve modelleriyle, herhangi bir firma, belirli bir zamanda meydana gelebilecek eğilimleri ve davranışları ortaya çıkarmak için önceki ve en son verileri kullanır.
Bu tür modeller, belirli bir olasılıklar kümesinin sağladığı vaat veya riski değerlendirmek için tasarlanmıştır.Örneğin, çeşitli trend parametreleri arasındaki ilişkileri keşfetmek için kullanılabilir.
6. Apache Spark
Apache Spark, büyük veri dönüşümü için en hızlı ve en yaygın üreticidir. Python, R, Scala ve Java’dan oluşan büyük veri ana dillerini destekler.
Hadoop, Spark için veri işlemenin ana hedefi olan “hız” ile ilgili olarak geliştirildi. Sorgulama ve program yürütme zamanlaması arasındaki bekleme süresini azaltır. Spark, Hadoop içinde esas olarak depolama ve işleme için kullanılır. MapReduce’tan yüz kat daha hızlıdır.
7. Normatif Analitik (Prescriptive Analytics)
Normatif analitik bir şirkete bir ürünün stoğunun sınırın altına düşeceğini bildirebilir, ardından piyasa değişikliklerine yanıt olarak çeşitli faktörlerin araştırılmasına yardımcı olabilir ve en uygun sonuçları tahmin edebilir.
Normatif Analitik, veri izleme üzerinde değerli içgörülere odaklanır ve müşteri memnuniyeti, iş karı ve operasyonel verimlilik için en iyi çözümü sunar.
8. Bellek İçi Veritabanı (In-memory Database)
En popüler 10 big data teknolojisi içinde yer alan diğer bir teknoloji de bellek içi veritabanı. Bellek içi veritabanı (In-memory Database – IMDB) bilgisayarın ana belleğinde (RAM) depolanır ve bellek içi veritabanı yönetim sistemi tarafından kontrol edilir.
Geleneksel disk tabanlı veritabanları, verilerin yazıldığı ve okunduğu blok uyarlamalı makinelerin dikkatine göre yapılandırılır. Bunun yerine, veritabanının bir bölümü başka bir bölüme atıfta bulunduğunda, diskte farklı blokların okunması gerekir. Bu, veritabanlarının birbirine bağlı bağlantılarının doğrudan göstergeler kullanılarak izlendiği bellek içi veritabanında olmayan bir sorundur.
Bellek içi veritabanları, disklere erişim gereksinimlerini göz ardı ederek minimum süre elde etmek için oluşturulmuştur. Ancak, tüm veriler ana bellekte tamamen toplandığı ve kontrol edildiği için, bir işlem veya sunucu arızası durumunda verileri kaybetme olasılığı yüksektir.
9. Blockchain
Blockchain, Bitcoin dijital para birimi için kullanılan güvenli veri özelliği taşıyan veritabanı teknolojisidir. Yazıldıktan sonra asla silinmez veya daha sonra değiştirilmez.
Oldukça güvenli bir ekosistemdir ve bankacılık, finans, sigorta, sağlık, perakendecilik vb. sektörlerdeki çeşitli büyük veri uygulamaları için harika bir seçimdir.
Blockchain teknolojisi hala geliştirme sürecindedir, ancak AWS, IBM, Microsoft gibi çeşitli kuruluşların birçok tüccarı, blockchain teknolojisinin oluşturulmasında olası çözümleri sunmak için denemeler yapmaktadırlar.
10. Hadoop Ekosistemi
En popüler 10 big data teknolojisi arasında belki de adı en çok duyulan teknoloji Hadoop Ekosistemidir.
Hadoop ekosistemi, büyük veriyi çevreleyen zorlukların çözülmesine yardımcı olan bir platformdan oluşur. Alma, saklama, analiz etme ve bakımını yapma gibi çeşitli bileşenleri ve hizmetleri içerir.
Hadoop ekosisteminde yaygın olan başlıca hizmetlerin çoğu, HDFS, YARN, MapReduce ve Common gibi, çeşitli bileşenlerini tamamlamaktır.
Hadoop ekosistemi, hem Apache Açık Kaynak projelerini hem de diğer çok çeşitli ticari araçları ve çözümleri içerir. İyi bilinen açık kaynak örneklerinden bazıları arasında Spark, Hive, Pig, Sqoop ve Oozie bulunur.
Big datayla ilgili detaylı bilgi için aşağıdaki yazılara göz atabilirsiniz;