İstatistik derslerini tablet üzerinden çalışmanız şiddetle tavsiye olunur.
Bu konuda istatistiğin kullanım alanlarına ve yöntemlerine değineceğiz.
Veri bilimi gibi istatistik de disiplinler arası alandır. Astronomide astroistatistik, iktisatta ekonometri, kimyada kemometri, biyolojide biyoistatistik, psikolojide psikometri, sosyolojide sosyometri gibi bilim dallarının oluşmasını sağlamıştır. Günlük hayatta istatistiği görünür hâli ile kullandığımız gibi uzmanlık alanı gerektiren alanlarda istatistiğe daha fazla ihtiyaç duyarız. İstatistik elde ettiğimiz bulguları açıklamamıza, veriler yardımıyla genel ve özel sonuçlara ulaşmamıza yardımcı olur. Çok büyük bir veri seti üzerinde çalışılıyorsa yapılan örneklemeler ile zaman ve maliyet tasarrufu sağlanır.
Betimsel İstatistik (descriptive statistics): Verilerin ortalamalar, standart sapmalar, grafikler ile özetlendiği, geçmişe yönelik yorumlandığı istatistik yöntemidir.
Çıkarımsal İstatistik (statistical inference): Verilerin hipotez testleri, varyans analizi, korelasyon analizi, regresyon analizi gibi tekniklerle hem geçmişe hem de geleceğe yönelik yorumlandığı istatistik yöntemidir.
İki yöntemin yanında az bilinen bir yöntem daha vardır. “Keşifsel Veri Analizi” adıyla tanımlanan bu metodda betimsel ve çıkarımsal istatistikte kullanılan tekniklerin grafikler yardımıyla özetlenmesi esastır. 1960’larda John Tukey tarafından literatüre kazandırılmıştır.
Veri madenciliğinde keşifsel veri analizi (exploratory data analysis, EDA), veri kümesi temel karakteristiğinin sıklıkla görsel metotlar yardımıyla özetlendiği yaklaşımdır. Modelleme aşamasından önce verinin bize ne göstermek istediğini anlamamızı sağlar. Tek bir sütundaki onlarca sayıya ya da tüm bir Excel sayfasına bakıp verinin tipik özelliklerini tanımlamak kolay değildir. Sadece sayılara bakıp veri hakkında çıkarsamalarda bulunmak zahmetli, bıktırıcı ve usandırıcı bir iş hâline dönüşebilir. Keşifsel veri analiz teknikleri bu gibi durumlara çözüm amacıyla geliştirilmiştir.
Keşifsel veri analizinde iki ana yöntemle çapraz sınıflandırma yapılır.1 İlkinde her bir metot ya grafikseldir ya da özet tablolardan oluşur. İkincisinde yöntemler tek değişkenli ya da çok değişkenli olmalıdır. (Çoğunlukla iki değişkenlidir.)
Keşifsel veri analizinin öğrenilmesini kolaylaştırmak adına “süsen veri seti”2 üzerinde çalışma yapacağız.
Veri seti, süsen çiçeğinin 3 farklı türüne3 ait 4 farklı özelliğini4 içermektedir. Veri kümesinde 50 farklı örnek (50 satır) olmakla birlikte 3 farklı tür ile toplamda 150 birim5 yer almaktadır.
Tek değişken analizi, verinin tek değişkenli olduğu durumlarda kullanılan en basit veri analizi uygulamasıdır. Sadece tek bir değişkene sahip olmasından dolayı neden – sonuç bağlarına ve bağımsız değişkenler arasındaki ilişkilere ihtiyaç duyulmaz. Temel amaç veriyi tanımlamak ve veriyi oluşturan yapıyı bulmaya çalışmaktır.
Veri kümesini “beş gösterge” ile özetler: Minimum değer (Q0), ilk kartil (Q1), medyan (Q2), üçüncü kartil (Q3) ve maksimum değer (Q4).
Oluşturulan diyagram veri setindeki dört nümerik özelliğin özetini verir. Kutuların büyüklüğünden taç (petal) uzunluk ve genişliklerinin çanağa (sepal’e) göre daha büyük olduğunu söyleyebiliriz. Buna rağmen çanak uzunluk ve genişlikleri medyan (ortanca) etrafında yoğunlaşmıştır. Dahası çanak genişliği diyagramında bulunan noktalardan aykırı değerlerin6 varlığını gözlemleyebiliriz.
Sürekli değişkenler ile oluşturulan veri kümesine ait frekans dağılımını gösteren diyagramdır. Dağılımın normal dağılım olup olmadığını, dağılımdaki aykırı değerleri ve dağılıma ait çarpıklık derecesi gibi önemli özellikleri incelememize yarar.
Yukarıdaki diyagram, çanak ve taç genişliklerinin histogram grafiğini göstermektedir. Soldaki grafikte çanak genişliklerinin normal dağılıma sahip olduğu görülebilir. Buna rağmen ikinci grafikte taç genişlikleri sağa çarpık dağılım sergilemiştir. Ayrıca taç genişliklerine ait örneklerin büyük bölümü 0.4 cm’den daha kısadır.
Birden fazla değişken içeren verinin istatistiksel teknikler ile analizini belirtir. Gerçeğe daha yakın modellemeler yapmamızı sağlar.
Dağılım grafiği iki farklı değişkenden elde edilen değerlerin X ve Y eksenlerine denk gelen kesişimlerini gösteren iki boyutlu veri görselleştirmesidir.
Yukarıdaki dağılım grafiklerinin ilkinde taç uzunluk ve genişlikleri arasında doğrusal bir ilişki olduğunu söyleyebiliriz. Buna rağmen çanak uzunlukları ile genişlikleri arasında orantısal bir artış olmamasından dolayı pozitif ya da negatif yönlü doğrusal bir ilişki olmadığı sonucuna varılabilir.
Dağılım grafiklerinin renkli gösterilmesi hâlinde diyagrama yeni değişkenler eklenebilir. Aşağıdaki örnekte çiçek türleri renklendirilerek üç türe ait taç uzunluk ve genişlikleri tek bir grafik üzerinde gösterilmiştir.
En küçük taç uzunluk ve genişlik değerlerine sahip çiçeğin setosa süseni, en büyük değerlere sahip çiçeğin ise virginya süseni olduğunu söyleyebiliriz. Çok renkli süsene ait taç uzunluk ve genişlikleri setosa ve virginya süsenlerinin arasındadır.
Kategorik verilere7 ait değerlerin oransal uzunluklarını gösteren grafik türüdür. Örneğin, veri setimizdeki tüm çiçek türlerine ait ortalama taç/çanak uzunluklarını ve genişliklerini görmek isteyelim.
Sütun grafiklerinden görebileceğimiz gibi virginya süseninin en büyük taç uzunluk ve genişliği ile çanak uzunluğuna sahip olduğunu söyleyebiliriz. Bununla birlikte setosa süseninin çanak genişliği genelden farklı olarak en yüksek değere sahiptir.
Örneğini incelediğimiz keşifsel veri analizi, verinin içeriğine dair iyi bir bakış açısına sahip olmamıza yarar. Keşifsel veri analizi aşaması tamamlandığında kümeleme8 ve sınıflandırma9 gibi daha karmaşık modelleme adımlarına geçilebilir.
Keşifsel veri analizi için örneklendirdiğimiz grafiklerin yanında verimizin karakteristik özelliklerine bağlı olarak farklı gösterimleri de tercih edebiliriz:
kullanabiliriz.
Keşifsel veri analizi, “makine öğrenmesi”10 ya da “istatiksel modelleme”ye11 başlanılmadan önce uygun model geliştirme ve sonuçları doğru bir şekilde yorumlama ihtiyacını karşılaması yönüyle kritik bir aşamadır. Veri bilimcisi için elde edilen sonuçların geçerliliğini doğrulaması, sonuçları düzgün şekilde göstermesi ve çalışılan iş üzerinde uygulanabilir kılması bakımından da önemlidir.
Çeviri Kaynağı: https://chartio.com/learn/data-analytics/what-is-exploratory-data-analysis/