Nedir?

2020 yılının başından itibaren1 popülerliği zirve yapan veri bilimi ve veri analizi2, devletlerin ve büyük kurumsal firmaların inceleme konusu olarak belirlediği insan popülasyonuna ait yığın verilerden önemli bilgiler edinmek, edinilen bilgileri derleyip analiz etmek, analiz edilen bilgilerden önemli çıkarsamalarda bulunmak, netice itibariyle gerekli aksiyonları almak için kullandığı yöntemler bütünüdür.

Veri bilimi, “istatistik”, “veri analizi” ve “bilgi teknolojileri” alanlarına bağlı yöntemleri tek bir çatı altında toplayan kavramsal bir terimdir. Veri bilimi ayrıca “matematik”, “istatistik”, “bilgisayar bilimi” ve “enformatik” dalları ile çok fazla iç içe olduğu için disiplinler arası bir alandır.

Veri analizi, veri bilimi yöntemleri kullanılarak elde edilen verilerden yararlı bilgiler edinilmesi, anlamlı sonuçlara ulaşılması, yönetici kararlarına destek olması amacıyla “verilerin toplanması”, “verilerin saklanması”, “verilerin incelenmesi”, “verilerin temizlenmesi”, “verilerin düzenlenmesi”, “verilerin derlenmesi”, “verilerin modellenmesi” ve “verilerin çözümlenmesi” süreçlerinin tümünü ifade eder.

john tuckey
John Tukey

İleri seviye bilgi birikimi ve deneyim gerektiren veri analizine, veri biliminin uygulanması gözüyle bakılabilir. Diğer bir ifade ile veri bilimi teoriktir. Veri analizi ise veri biliminin pratikteki hâlidir. 1962 yılında Amerikan matematikçi ve istatistikçi John Tukey ilk kez “data analysis” (veri analizi) tabirini kullansa da 1985 yılında Çin kökenli Amerikan istatistikçi C. F. Jeff Wui3 istatistiği temsil etmek amacıyla “data science” (veri bilimi) terimini literatüre kazandırmıştır. Bilinmesi gereken diğer bir husus veri analizinin modern anlamıyla bilgisayar temelli büyük veri hesaplamalarını belirtmesidir. Bu sebeple veri bilimine ilgisi olanların son yıllarda adını sıkça duyduğu

terimleri aynı zamanda karmaşık bilgisayar hesaplamalarının4 gelişen teknoloji ile çok daha hızlı ve kısa sürede yapılabilmesi sonucu ortaya çıkan veri bilimi ve veri analizi kavramlarıdır.

Veri bilimi ve veri analizi, insanoğlunun ilk buğday tanesini saymasıyla, antik devletlerin ilk nüfus sayımını yapmasıyla, elde edilen ganimetlerin ilk kez kayda alınmasıyla başlamış, modern anlamını gelişen yazılım teknolojileri sonucu edinmiştir.

Günümüzde birçok insan veri bilimi ve veri analizine katkı sağladığının farkında bile değildir. İnternet üzerinden alışveriş yapan bireyler aynı zamanda cinsiyet, ilgi alanı, yaş aralığı, harcama tutarı gibi bilgilerini alışveriş yaptığı firma ile paylaşmakta, tüketicilerden elde edilen bilgiler analiz edilerek yeni ürün satışlarında ve ürün pazarlamalarında kullanılmaktadır. Bugün kullanıcı verilerinin profesyonel anlamda analiz edilip yorumlandığı en gelişmiş firma aynı zamanda dünyanın en büyük e-ticaret firması olan Amazon’dur.

shopping cart

Basit örneklendirmeler yapmak gerekirse, vergi mükelleflerinin vergi matrahını hesaplayan gelir uzmanı farkında olmadan merkezî bütçe planlaması sürecine de dahil olmaktadır. Bir banka müşterisinin bankadaki mevduat hesabı, tüketici kredisi, kredi kartı limiti aynı zamanda bankanın ürün analizinde kullanacağı birçok önemli veriyi de içermektedir. Süpermarkette yapılan alışveriş sonucu elde edilen tüketici alışkanlığı analiz edilip müşterilerin tüketim grubuna göre ürün promosyonu yapılabilmektedir. Google’da arama yaptığımızda kullanıcı verilerimiz ve alışkanlıklarımız Google’a aktarılmakta, Google ise ilgi alanlarımıza göre göre reklamlar sunulabilmektedir. Tüm bu örneklerin ortak noktası, veri bilimi ve veri analizinin gelişmiş bilgisayarlar yardımıyla “geniş kitleler”e uygulanabilmesidir.

Bu noktada “geniş kitleler” ifadesini irdelemekte fayda var. Veri analisti hiçbir zaman tek bir bireyin verilerini toplayıp sadece o bireye özel çıkarsamalarda bulunmaz. Veri analisti birçok bireyin verilerini toplayıp verileri bilgisayar yardımıyla analiz eder, “özel nitelikli birey kümesi”ne ait çıkarsamalarda bulunur. Detaylı örnek vermek gerekirse, stoklarında spor ayakkabı ve sırt çantası bulunan hazır giyim firması satışlarını artırmak için ilgi alanına göre web sitesinde öncelikli reklam stratejisine gidebilir. Analiz sonrası son 90 gün içerisinde spor ayakkabıları hakkında en fazla arama yapılan ilin Kütahya, sırt çantaları hakkında en fazla arama yapılan ilin ise Bilecik olduğu sonucuna ulaşılmıştır. Yöneticiler web sitelerindeki ürünleri, Kütahya’dan ziyaret eden kullanıcılara spor ayakkabısı, Bilecik’ten ziyaret eden kullanıcılara ise sırt çantası olacak şekilde ilk ziyaretçi oturumlarında sergileyebilir. Böylelikle kullanıcılar web sitesinde aradıkları ürüne daha hızlı ulaşabilecek, firma ise satışlarını artırabilecektir. Gerçekte bu tür örnekler Google Trends yardımıyla elde edilebilir.5 Fakat veri analistleri, dış kaynakların yanında iç kaynaklar olan veri tabanından elde edilen kullanıcı verilerini öncelikli analiz konusu olarak belirlemeyi tercih edecektir. Özetlemek gerekirse, veri analizde sadece A kullanıcısının yönelimi analiz edilmez. A, B, C gibi birçok kullanıcının verileri kümülatif olarak toplanır, derlenir ve analiz edilir.

facebook - cambridge analytica

Facebook - Cambridge Analytica Veri Skandalı

Veriler iyi amaçlar için de toplanabilir, kötü amaçlar için de… Kötücül amaçlar için kullanıldığı bilinen en büyük sansasyonel gizlilik hakkı ihlali “Facebook - Cambridge Analytica Veri Skandalı”dır. Dünyanın en büyük sosyal medya ağı olan Facebook, Inc.6 firması 2010 yılında kullanıcılarına ait verileri İngiliz Cambridge Analytica danışmanlık firmasıyla anlaşmalı paylaşmaya başlamıştır. Başlarda reklamcılık sektörünün gelişimi için çalıştığı izlenimi veren Cambridge Analytica’nın asıl faaliyet alanı, eski çalışanları Christopher Wylie’nin 2018 yılında The Guardian ve The New York Times’a şirket faaliyetlerini açıklamasıyla gün yüzüne çıkmıştır. Brittany Kaiser’ın da itirafları sonrası Facebook kullanıcılarından elde edilen bilgilerin “silah klasmanı”nda değerlendirilebilecek derecede potansiyel tehlike içerdiği vurgulanmıştır.7

Skandalın İçyüzü

2016 yılında Cambridge Analytica, Facebook kullanıcılarına Personality Quiz (Kişilik Testi) uygulaması üzerinden birkaç sorudan oluşan basit bir anket göndermekteydi. Kullanıcıların sorulara verdiği yanıtlardan kişilik modellemeleri oluşturuldu. Personality Quiz başlarda masum görünmesine rağmen uygulamaya sahip kullanıcıların bağlantısı olduğu kişilerin bilgileri de toplanıyordu. Diğer bir ifade ile uygulamayı kullanan ve kullanmayan kişilerin verileri Facebook aracılığıyla Cambridge Analytica’ya aktarılıyordu.

ocean psychographic
Ocean Psikografik Modeli

2015 yılında Personality Quiz uygulaması üzerinden 87 milyon Facebook kullanıcısının verisi toplandı. 2016 ABD Başkanlık Seçimleri Kampanyasında psikografik modellemeler8 ile kararsızlar ve oylarını değiştirmeye meyilli kullanıcılar öncelikli hedef olarak belirlendi. Kullanıcıları manipüle edecek şekilde kampanya videoları ve görseller paylaşıldı. Dezenformasyon çalışmaları başarıyla yürütüldü. Sonucunda da Donald Trump seçimleri kazandı.

Cambridge Analytica ayrıca 2016 yılında İngiliz siyasi kampanya grubu olan Leave.EU ve Birleşik Krallık Bağımsızlık Partisi ile koordineli çalışarak Birleşik Krallık’ın Avrupa Birliği’nden ayrılması yönünde yoğun bir Brexit siyasi propagandası yürüttü. Aynı yıl Birleşik Krallık’ta referanduma gidildi. Seçmenlerin %52'si Avrupa Birliği’nden çıkılması yönünde oy verdi.

Skandal Sonrası

2018’de Facebook kurucusu Mark Zuckerberg ABD Senatosuna ifade vermek zorunda kaldı. Aynı yıl Cambridge Analytica iflasını açıkladı. Temmuz 2019’da Facebook, gizlilik ihlallerinden dolayı Federal Ticaret Komisyonu (FTC)9 tarafından 5 milyar ABD doları para cezasına çarptırıldı. 2020 yılında Cambridge Analytica’nın CEO’su Alexander Nix’e etik olmayan potansiyel davranışlarından ötürü The Insolvency Service10 tarafından 7 yıl boyunca hiçbir şirketin yöneticisi olamama yaptırımı uygulandı.

Facebook - Cambridge Analytica Skandalı bizlere gösterdi ki “veri”, günümüz enformasyon çağında en büyük potansiyel güç konumundadır. Veri bilimi ve veri analizi ile küçük ölçekli yerel bir firmanın satış rakamları da artırılabilir, bir ülkenin geleceğine de yön verilebilir.

1 Google Trends’te data science and data analytics (30 Ağustos 2021 tarihli ekran görüntüsü)
2 data science and data analysis (Kimi kaynaklarda data analysis yerine data analytics kullanımı da tercih edilmektedir.)
3 Aynı zamanda Coca-Cola markasının mühendislik istatistiği departman başkanı
4 karmaşık bilgisayar hesaplamaları (complex computer computing)
5 30 Ağustos 2021 tarihli Google Trends sonuçlarına göre örneklendirme yapılmıştır.
6 Facebook, Inc. statista verilerine göre Temmuz 2021 itibariyle hâlen dünyanın en büyük sosyal medya platformudur.
7 The Great Hack (2019) belgeselinde tüm detaylar anlatılmıştır.
8 İnceleme konusu insan grubunun içinde bulunulan döneme ait genel tutum, tavır ve duyguları sonrası gelecekte alınması muhtemel kararları tahmin etmek için kullanılan modellemeler. Sıklıkla seçim anketlerinde kullanılmaktadır.
9 Tüketici haklarının korunmasından sorumlu ve serbest piyasa ekonomisine zarar verebilecek her türlü uygulamaya karşı faaliyet gösteren Amerika Birleşik Devletleri Federal Hükûmetine bağlı kurum
10 Büyük Britanya’da şirketlerin likidite yönetimini düzenleyici ve denetleyici kararlar almakla yükümlü devlet kurumu
Başlarken >>>