Her iki günde bir, zamanın başlangıcından 2003 yılına kadar ürettiğimizden daha fazla veri üretiyoruz.
Bernard Marr, Veri Stratejisi
Her geçen yıl üretilen veri, bir önceki yılı geçiyor. 2000’lerin başında birkaç GB’lık veri bize fazla gelirken, şu an veriyi terabaytlarla ölçüyor ve işliyoruz. Bu kadar çok verimizin olması bize gelecek hakkında daha kesin bilgiler verirken aynı zamanda da karmaşaya neden oluyor. Dünyanın en büyük şirketleri Wallmart, Amazon, Google, Apple, Facebook her yıl big dataya daha fazla yatırım yapıyorlar, çünkü yaptıkları yatırımın karşılığını fazlasıyla alıyorlar. Peki big data yani nağmı diğer büyük veri nedir ve neden önemlidir? İşte big data hakkında detaylı bir yazı…
Big Data (Büyük Veri) Nedir?
Attığımız her adım, girdiğimiz her internet sitesi, beğendiğimiz her Instagram gönderisi, kredi kartı işlemi, e-posta gönderme, fotoğraf çekme, paylaşma, internette blog ve makale okuma, cep telefonunuzu yanınızda taşımanız, MOBESE kameraları, sadakat kartınızla yaptığınız alışverişler, arabanız, sokakta ya da mağazada kayıtta olan kameralar hepsi birer big data kaynağı ve tüm bu verilerin toplanması ve işlenerek çeşitli amaçlar dahilinde faydalı hale getirilmesi big data kavramını oluşturuyor.
Big data kavramını daha iyi anlamak için 3 farklı big data tanımına göz atabiliriz.
Big data nedir sorusunun cevabı Wikipedia’ya göre; mevcut veritabanı yönetim araçlarını veya geleneksel veri işleme uygulamalarını kullanarak işlenmesi zor olacak kadar büyük ve karmaşık bir veri kümesidir.
Gartner’dan Doug Laney ise big data tanımını şu şekilde yapmıştır; gelişmiş içgörü, karar verme ve süreç otomasyonu sağlayan düşük maliyetli, yenilikçi bilgi işleme biçimleri gerektiren yüksek hacimli, yüksek hızlı ve / veya yüksek çeşitlilikteki bilgi varlıkları.
McKinsey de Wikipedia’nın big data tanımına benzer bir yaklaşımla big data nedir sorusunu cevaplamış: Boyutu, tipik veritabanı yazılım araçlarını yakalama, depolama, yönetme ve analiz etme yeteneğinin ötesinde olan veri kümeleri.
Big data tanımlarına baktığımızda ortaya çıkan ortak noktalar var. Bu ortak noktaları tanımlayan big data’nın 7V’sine yakından bakalım.
Big Data’nın Özellikleri: 7V
- Volume (Hacim) : Büyük veri, gerçekten büyük! İnternet, mobil cihazlar, sosyal medya ve Nesnelerin İnterneti (IoT) teknolojisinin büyümesiyle, tüm bu kaynakların ürettiği veri miktarı da arttı.
- Velocity (Hız) : Verideki artışın yanı sıra, kuruluşların bu verileri işleme yeteneği de hızlanıyor.
- Variety (Çeşitlilik): Önceden, çoğu veri türü Excel tablolarındaki satırlarda işlenebilirdi. Big data dünyasında, veriler genellikle sosyal medya yayınları, sunucu günlük verileri, en son coğrafi koordinatlar, fotoğraflar, ses, video ve serbest metin gibi yapılandırılmamış biçimlerde gelir.
- Variability (Değişkenlik): Yapılandırılmamış verilerdeki kelimelerin anlamı bağlama göre değişebilir.
- Veracity (Doğruluk): Veracity, veri kalitesi için bir veri kümesinin araştırılması ve bu verilerin analiz için yararlı olması için sistematik olarak temizlenmesi ile ilgilenir.
- Visualization (Görselleştirme): Veriler analiz edildikten sonra, son kullanıcıların anlaması ve üzerinde işlem yapması için bir görselleştirmede sunulması gerekir.
- Value (Değer): Verilerin yararlı olması için titiz işleme ve analizlerle birleştirilmesi gerekir.
Bernard Marr’a göre ise Büyük veri 5 ana faktörle tanımlanıyor; hacim, hız, çeşitlilik, doğruluk ve değer. Bir verinin büyük veri olabilmesi için de bu 5 faktörden en az birisini içeriyor olması gerekiyor.
Büyük Veri Ne Kadar Büyük?
Büyük veri bazı şirketler için günlük 40 terabayt verinin işlenmesi anlamına gelebiliyor. Ancak Bernard Marr’a göre büyük veriyi, büyük veri yapan nokta verinin büyüklüğü değil, nasıl kullanıldığı.
Şirketler, büyük veri analizi yapmak için işlerine yaraya, yaramayan bütün veriyi depolamamalı. Bu, zamanla verinin içinden çıkılmaz bir hal almasına neden olacaktır. Bunun yerine şirketin amacına uygun veriler tutulmalı ve onlar analiz edilmelidir. Bu da bazı şirketler için birkaç gigabaytlık veri anlamına gelirken, bazı şirketler için terabayt ya da petabayt olabilir.
Büyük Veri Neden Bu kadar Popüler?
Big Data’nın son zamanlardaki popülaritesi, büyük ölçüde, bu kadar çok verinin işlenmesine, depolanmasına ve analizine izin veren teknoloji ve altyapıdaki yeni ilerlemelerden kaynaklanıyor. Hesaplama gücü son beş yılda önemli ölçüde arttı, aynı zamanda fiyat düştü – bu da küçük ve orta ölçekli şirketler için daha erişilebilir olmasını sağladı. Aynı şekilde, büyük ölçekli veri analizi için altyapı ve araçlar daha güçlü, daha ucuz ve kullanımı daha kolay hale geldi.
Büyük Veri Neden Önemli?
Büyük veri zaman, maliyet, ürün geliştirme ve karar verme gibi alanlarda analiz yapılmasını sağlayarak firmalara yardımcı olur. Büyük veri, temelde firmaya 3 alanda fayda sağlar. Bunlar; karar verme sürecini geliştirme, operasyonları geliştirme ve verinin parasallaştırılmasıdır.
Büyük veri sayesinden şirketler müşteri, pazar, rakipler hakkında veri toplar. Bu analizlerle müşterinin ne istediği konusunda içgörü sahibi olan şirket, rakiplerinin önüne geçer.
Büyük veri firmaların verimliliğinin artırılması için kullanılmaktadır. Makine performansının takip edilmesi, teslimat güzergahının optimize edilmesi, işe en uygun personelin alınması gibi farklı departmanlar için büyük veri kullanmak mümkündür.
Büyük veriye sahip olmanın bir diğer önemi ise bu veriyi paraya çevirebilme potansiyelidir. Google’ın sigorta şirketlerine müşteri verilerini satması ya da hava durumu tahmini şirketlerinin verilerini perakende firmalarına satması verinin maddi değerinin güzel örnekleridir. Bu sayede firmalar veriyi ürünleştirebilirler.
Veri Türleri
Big data nedir anlayabilmek için veri türlerine bakmakta fayda var. Böylece big datanın kapsamını daha iyi anlayabiliriz;
- Yapılandırılmış Veri: Tanımlı bir kayıt ve dosya içindeki sabit bir alanda, genellikle veritabanları veya elektronik tablolarda yer alan veri veya bilgi. Müşteri verileri, satış verileri, işlem verileri, finansal veriler, web sitesi ziyaretlerinin sayısı yapılandırılmış veriye örnektir.
- Yapılandırılmamış Veri: Eposta yazışmaları, web sitesi metinleri, sosyal medya gönderileri, video içerikleri, fotoğraflar ve ses kayıtları gibi geleneksel yapılandırılmış formatlara veya veritabanlarına uymayan verilerdir. Verilerin %80’inden fazlası yapılandırılmamış ya da yarı yapılandırılmamış veridir.
- Yarı Yapılandırılmış Veri: Yapılandırılmış veri ile yapılandırılmamış veri arasında geçiştir. Yarı yapılandırılmış veri analiz için kullanılabilecek bir miktar yapıya sahiptir ama veritabanlarında veya elektronik tablolarda görülen sabit yapıdan yoksundur. Bir tweetin saati, karakter uzunluğu, sahibi kategorize edilebilir ama içeriğin kendisi genellikle yapılandırılmamış veridir.
- Dahili Veri: Dahili veri şirketin sahip olduğu veya toplama potansiyelinin bulunduğu tüm bilgileri ifade eder. Personel verileri, stok, satış verileri, kapalı devre kamera verileri dahili veri örnekleridir. Dahili verinin en önemli dezavantajlarından birisi, bu verinin güvenliğini sağlamakla yükümlü olmanızdır.
- Harici Veri: Harici veri, kurumunuzun dışında var olan sonsuz çeşitlilikteki verilerdir. Bu veriler halka açık olabilir veya üçüncü tarafın özel mülkiyetinde bulunabilir. Sosyal medya verileri, Google Trends verileri, TÜİK verileri, ekonomik veriler harici veriye örnektir.
Faaliyet verileri, görüşme verileri, fotoğraf, vidoe verileri ve sensör verileri de yeni veri türleri arasındadır. Bu veriler, bıraktığımız dijital izler sonucunda oluşmaktadır.
Big Data Kullanımında Çalışanların Etkisi
Veri analizcilerinin ne yaptıklarını bilmeleri tabi ki önemli. Şirketlerin ihtiyaçlarını karşılayabilecek veri analistlerini bulmaları ve onları şirketlerinde çalışmaya ikna etmeleri gerekiyor. Ancak, big datayı anlamlı verilere çevirip, para çevirmek sadece veri analistlerinin üzerine yıkılabilecek bir iş değil. Big datanın paraya çevrilmesi tüm şirketin ortak çalışması ile mümkün.
Saha personeliniz müşterinizin telefon numarasını, eposta adresini ya da doğum tarihini yanlış aldığı zaman en iyi data analizcisinin bile yapabileceği bir şey kalmıyor. Aynı şekilde sadakat kartlarıyla toplanan verilerin doğruluğu da güvenilir bir analiz için önemli.
Migros kasalarında Migros Sanal Kartı olmayan müşteriler başka bir müşterinin kartını kullanabiliyor ya da kasada personelin bulundurduğu kartı kullanabiliyor. Sadakat kartlarının tek amacı müşterilere indirim sağlamak değildir, bu kart sayesinde her müşterinin alışveriş verisi tutulabiliyor. Bu veriler analiz edilerek kişiselleştirilmiş müşteri deneyimi sunuluyor. Bekar erkek bir müşterinize çocuk bezi, 16 yaşındaki bir müşterinize zeytinyağı, bir kadın müşterinize traş losyonu kampanyası göndermek istemezsiniz değil mi? Bu nedenle Migros pazarlama yöneticilerinin, saha çalışanlarına her müşterinin kendi kartını kullanmasının amacını ve önemini anlatmalı.
“Ön saftaki personelden gelen veya onlarla yakın çalışma ile geliştirdiğimiz fikirler, en iyi sonucu veren ve müşterilerde en iyi yansımayı yaratan projelerdir.”
Bernard Marr – Büyük Veri İş Başında (İskoçya Kraliyet Bankası örneği)
Bir diğer nokta da müşterileri ve müşterilerin karakterlerini en iyi tanıyanların saha personeli olması. Şirketlerin, saha personellerinin big datayı ne amaçla kullanabilecekleri konusundaki fikirlerine ihtiyacı var. Sahadan gelen içgörüler, başarılı big data projelerinin oluşturulmasına yardımcı olacaktır.
Big Data Teknolojileri
Big datayı en çok kullanan şirketlerden birisi olan Amazon, aynı zamanda diğer firmalara big data kullanımlarını kolaylaştıracak çözümler de sunuyor. Amazon Web Service (AWS) de bunlardan birisi. Amazon Web Service (AWS) diğer firmalara big datalarını depolayabilecekleri bulut alanını sağlıyor. Firmaların bu datayı analiz etmesine ve işlemesine olanak sağlıyor. Cloudera CDH, Hortonworks Data Platform, Infobright, IBM Big Data Platform, IBM Watson, MapR, Microsoft HDInsight, Pivotal Büyük Veri Paketi başlıca veri analitiği çözümleri olarak sıralanabilir.
Apache Hadoop yazılım kütüphanesi, büyük veri kümelerinin basit programlama modelleri kullanarak işlenmesini sağlayan bir big data teknolojisidir. Her biri yerel hesaplama ve depolama sunan tek sunucudan binlerce makineye ölçeklendirilmek üzere tasarlanmıştır. Spark, veri gölleri ve veri ambarları da büyük veriyi depolamayı sağlayan teknolojilerdir.
Big Datanın Geleceği
Yeni teknolojilerin, özellikle makine öğrenmesi (machine learning) alanında, hızlı bir şekilde geliştirilmesi kuşkusuz yapmaya çalıştığımız tahminleri geçersiz kılacak. Kesin olan, Büyük Veri’nin gelecekte de olacağı. Ürettiğimiz veri miktarı artacak ve analizlerimiz hızlanacak. Çok yakında, Büyük Veri günlük yaşamınızdaki her sektöre ve her sektöre dokunacak ve dönüşecektir.
Nesnelerin İnterneti (IoT)
Nesnelerin interneti teknolojisi, big datanın önündeki fırsatın büyümesini sağlıyor. İnternete bağlı olan bu cihazlar daha fazla data üretiyor ve kullanıcı ve tüketici davranışlarının analiz edilmesi için ilk elden veri toplama şansı sunuyor.
Akıllı telefonlarımız, akıllı saatlerimiz, akıllı televizyonlarımız, akıllı evler, internete bağlı olan otomobilimiz, buzdolabımız, çamaşır makinemiz, kahve makinemiz hepsi birer big data kaynağı.
Big Datayla İlgili Zorluklar
Big data nedir diye konuşurken, bir yandan da big datayı şirkette uygulamanın zorlukları olduğundan bahsetmek gerekir. Big datayla ilgili en büyük zorluk, big datanın işlenmesi konusunda karşımıza çıkıyor. Bu alanda yetişmiş işgücünün az olması ya da yeterince kalifiye olmaması firmaların big datanın gücünü tam anlamıyla kullanmasını zorlaştırıyor.
Big datayla ilgili bir diğer zorluk da verinin güvenliğinin sağlanması. Avrupa Birliği’nin yayınlamış olduğu GDPR ve ülkemizde uygulanan KVKK, şirketlerin verileri kullanmasını ve bu verilerin güvenli bir şekilde tutulmasını yasalarla kontrol ederek vatandaşları korumayı amaçlıyor. GDPR ve KVKK düzenlemeleri doğrultusunda, müşterilerin izni olmadan veriler depolanamıyor ve işlenemiyor. Bugün, Microsoft ve Facebook gibi büyük firmalar beli veri hırsızlığından muzdaripler. Bu da tüketicilerin verilerini kendi istekleriyle paylaşmasını daha zor hale getiriyor. Ayrıca GDPR ve KVKK kapsamına uymayan şirketlere ağır yaptırımlar ve cezalar uygulandığını da eklemekte fayda var.
Big datayla ilgili bir diğer zorluk da tekrar eden verilerin analizde yarattığı sorunlar. Datanın içindeki tekrar eden verilerin (dublicate) temizlenmesi gerekiyor. Yani, bir müşterinin 2 ayrı kaydı bulunmamalı, sadece bir kaydı olmalı ve bu şekilde analiz yapılmalı. Analizin güvenilirliğini sağlamak için tekrar eden satılar ortadan kaldırılarak veri seti temizlenebilir. Bir diğer yöntem de müşterilerinizin verilerinin ikinci bir satırda daha olmamasını baştan sağlamak. Yani bir eticaret sitesi olduğunuzu düşünün, her müşterinin yalnızca bir kere kaydolmasını sağlayacak bir sistem kurmalısınız ve eposta doğrulaması herkesin 4-5 farklı eposta adresine sahip olduğu ve ortamda mümkün değil.
Veri analizi konusunda en başarılı şirketlerden birisi olan Amazon, müşterilerini yalnızca 1 kere kayıt olmaya teşvik etmek için Amazon Prime projesini gerçekleştirdi. Müşteriler Amazon Prime müşterisi olabilmek için bir bedel ödüyorlar, bu da onların 2. bir hesap açmalarının önünü kesiyor. Bu bedelin karşılığı olarak da Amazon Prime uygulaması müşterilere ücretsiz erken teslimat gibi premium ayrıcalıklar tanıyor.
Big Data Nasıl Kullanılıyor?
Obama, seçim kampanyası sırasında big datayı kullandı ve sosyal medyada herkese açık olan verileri analiz ederek farklı seçmen grupları için farklı seçim kampanyaları yürüttü.
Tarım makineleri markası olan John Deere, müşterilerine big data ile hava durumu verisi sağlıyor. Ayrıca müşterilerinin toprağını analiz ederek hangi gübrenin daha iyi olacağını , gübreyi ne kadar kullanacağını söylüyor. Her müşterisinin tarım arazisinden verileri alarak geniş bir analiz yapıyor ve onların işini daha karlı hale getirmek için çabalıyor.
Bankalar, dolandırıcılık faaliyetlerini tespit etmek için big datadan yararlanıyorlar. Mesela, İstanbul’dan alışveriş yaptıktan birkaç saat sonra New York’ta kredi kartınızı kullandığınızda bunun siz olmayacağınızı tespit ediyorlar. Ayrıca geçmiş dönem yaptığınız alışveriş kalemlerini analiz ederek, bu alışverişlerle alakası olmayan bir işlemde de güvenlik sistemi uyarı veriyor. Alışveriş yaptığınız saatlerin dışında gerçekleşen bir işlem de güvenlik sisteminin uyarılmasına neden oluyor.
Google ise big datayı hem kullanan hem de başka firmalara satan bir şirket. Sigorta şirketleriyle sürücü verilerini paylaşıyor. Böylece sigorta şirketleri kimin güvenli, kimin riskli sürücü olduğunu biliyorlar müşterilerinin fiyatlandırmasını buna göre yapıyorlar.
Facebook’un yüzleri tanıyabilmesi ve bu kişiler için otomatik etiketleme önermesinin altında da big data teknolojisi yatıyor.
Perakende Sekötürü
Perakendeciler büyük veri analitiği ile trendleri öngörerek popüler ürünlerin neler olacağını tahmin edebiliyorlar, talebin nerede olacağını öngörebiliyorlar, rekabette üstünlük sağlamak için fiyat optimizasyonunda kullanabiliyorlar, belli ürünlerle ilgilenme olasılığı yüksek müşterileri tahmin edebiliyorlar, onlara ulaşmak için en uygun yolu tespit edebiliyorlar ve satışı gerçekleştirerek bir sonraki satışın ne olacağını tahmin edebiliyorlar. Ayrıca alışveriş deneyiminizi de kişiselleştiriyorlar.
Walmart da bu firmalar arasında. Walmart’ın big datayı nasıl ve ne amaçla kullandığıyla ilgili daha detaylı bilgi için Walmart ve Big Data yazısını okuyabilirsiniz.
Yardımcı Kaynaklar;
Veri Stratejisi – Bernard Marr
Büyük Veri İş Başında – Bernard Marr
https://towardsdatascience.com/
https://aws.amazon.com/tr/what-is-aws/
https://hadoop.apache.org/
https://www.analyticssteps.com/
https://www.kdnuggets.com/