İnternetteki içerikler kullanıcılara sunulan izinlerle verilerin kaydedilmesiyle genişletilir. Süreç aslında karşılıklı faydaya dayanan bir alışveriştir. İnternetten elde ettiğiniz her etkileşimde internet daha fazlasını sunabilmek için verilerinizi depolar. Bu sanal-organik yapı genişlemeye devam eder. Dünyadaki tüm madenler arasında belki de günbegün en fazla genişleyen kaynaktır. Hal böyleyken veri madenciliği de önemli bir kol haline geldi.
Veri madenciliği nedir?
Veri madenciliği kısaca, büyük veri yığınları içinden anlamlı, işe yarar ve gizli kalmış bilgilerin keşfedilmesi sürecidir. Yani, ham veriler üzerinde istatistiksel yöntemler, yapay zeka, makine öğrenmesi ve veri tabanı teknikleri kullanılarak desenler, ilişkiler ve eğilimler ortaya çıkarılır.
Veri madenciliği nasıl yapılır?
Veri madenciliği birkaç temel aşamadan oluşur:
İnternet sitelerinin veritabanları, log dosyaları, sosyal medya içerikleri ve CRM sistemleri analiz edilir.
Sistemlerde yer alan hatalı, bozuk, eksik ve tekrar eden veriler temizlenir. Veriler üzerinde analiz yapılabilir hale getirilir. Örneğin kategorilere değer atanır veya sayısallaştırılır.
Verilerin analiz edilip sınıflandırılmasında kullanılan yöntemler
- Veriler türlerine göre sınıflandırılır (Classification) ve spam mail filtresi getirilir.
- Veriler işlevlerine göre kümelendirilir (Clustering). Örneğin benzer müşteri grupları ya da kullanıcı alışkanlıklarının bir araya getirilmesi gibi.
- Regresyon işlemi ile gelecek satışlara yönelik tahmini bir değer hesaplanır.
- Veriler arasındaki ilişki kuralları (Association Rules) analiz edilir. Hangi ürünlerin beraber alındığı gibi alışkanlıklar saptanır.
- Şüpheli işlemler Anomali tespiti (Anomaly Detection) ile tespit edilir ve soruşturulur.
- Elde edilen sonuçlar operasyonel hale getirilir. Reklam hedef grupları, stok planlaması ve güvenlik açıklarına karşı sahtekarlık girişimlerinin önü kesilir.
Veri madenciliğinin önemi nedir?
- Kurumların karar alma sürecinde temelli destek sağlar.
- Rakiplere karşı başlangıç avantajı sağlar.
- Stok durumu ve üretim süreci hatalarındaki sorunların tespit edilerek önlenmesine katkıda bulunur. Kaynak israfının önüne geçer.
- Müşteriler için kişiselleştirilmiş bir deneyimin sunulmasını sağlar.
Veri madenciliği eğitimi için izlenebilecek yol haritası
- Veri madenciliğinin temeli matematik ve istatistiktir. Olasılık hesapları, regresyon ve istatistiksel testler hazırlayabilmek gerekir.
- Bilgisayar yazılımlarına hakim olmanız gerekir. Python gibi yazılım dillerini öğrenmelisiniz.
- Veritabanı analizi için MySQL ve NoSQL gibi veri depolarını kullanabilmeniz önemlidir.
- Veri madenciliğinin temellerinden birisi makine öğrenmesidir. Sınıflandırma (spam tespiti, müşteri/kullanıcı ayrımı), regresyon (tahmini fiyat çizelgesi oluşturabilme), kümeleme (müşteri hedef grubu oluşturma) ve anomali (dolandırıcılık, sahtecilik ve arıza denetimi gibi) gibi önemli aşamalara makine öğrenmesiyle ulaşılır.
- Verileri görsel hale getirmek işlevsellik ve kullanılabilirlik açısından önemlidir.Tableau ve matplotlib gibi yazılımları kullanmayı öğrenmelisiniz.
Veri madenciliğiyle alakalı dikkat edilmesi gerekenler
- Verilerin kalitesi önemlidir. Ham veriler genellikle eksik, rastgele ve düzensizdir. Verilerdeki tamlık durumu kontrol edilmelidir.
- Veri kaynağını doğru seçmeniz gerekir. Verilerin içeriği kadar güvenilirliği de önemlidir. Özellikle spam kaynaklardan aktarılan veriler çoğu zaman güvenilmezdir.
- Verilerin hangi amaçta kullanılacağını belirlemeniz gerekir. Doğrudan sektöre yönelik hedefler belirlemek zaman tasarrufu sağlayacaktır. Kullanıcı alışkanlıkları birbirine paralellik gösterir.
- Kişisel verilerin kullanılması ve paylaşılması konusunda etik bir tutuma sahip olmalısınız. Hassas verilerin saklanması hem ahlaki hem de hukuki açıdan önemlidir.