Paylaş

Veri madenciliği veya evrensel adıyla data mining kavramı, büyük miktardaki depolanmış verinin içinden geleceğin tahmin edilmesinde yardımcı olacak anlamlı ve yararlı bağlantılar ile kuralların, bilgisayar programları aracılığıyla aranmasını ve analizini kapsar. Öte yandan bu kavramın içine çok büyük miktardaki verilerin içindeki ilişkileri inceleyerek aralarındaki bağlantıyı bulmaya yardımcı olan ve veri tabanı sistemleri içerisinde gizli kalmış bilgilerin çekilmesini sağlayan veri analizi tekniği de girmektedir.

Dünyadaki güç dengelerini belirleyen en önemli faktör olan bilgi, işlenip veriye dönüştürüldüğü ve kullanıldığı ölçüde etkisini ve gücünü göstermeye başlıyor. Bilginin bu gücünün kapsamının önem arz ettiğini çok iyi bilen ve bilgiden kaynaklanan bu gücün etkisinin kendi lehlerinde kullanmak isteyen ülkeler ise bu alanda çalışmalar ve yatırımlar yaparak güçlerini pekiştirmeyi amaçlıyorlar. Dolayısıyla veri madenciliği kavramı da bu duruma doğru orantılı olarak giderek önem kazanmaya devam etmektedir. Bu bilgi havuzunun 20 ila 25 yıl civarında oluşması ve bilgisayarlarca saklanması ise birçok alanda veri madenciliğini kaçınılmaz kılıyor.

Veri madenciliği araçları birçok alanda kullanılarak, kurum ve kuruluşlarca daha etkin kararlar alınmasına yönelik karar destek sistemlerinde gerekli olan davranış kalıplarının ve eğilimlerin ortaya çıkmasında önemli rol oynuyor. Bu sayede geçmişte kullanılan klasik karar verme destek sistemlerindeki araçlardan farklı olarak, veri madenciliğinde çok daha kapsamlı ve otomatize edilmiş analizler yapmaya yönelik birçok farklı özellik de bulunuyor.

Kurum ve kuruluşlara veri grupları arasındaki benzer eğilimlerin ve davranış kalıplarının belirlenmesi fırsatını sunan veri madenciliği kavramı bu süreçte otomatize edilmiş bir biçimde hayata geçirilebiliyor. Dolayısıyla bu sistem bünyesinde bulunan özellik hedef kitlelere ve pazarlara yönelik uygulamaları faaliyetlerde yoğun olarak kullanılıyor

Veri madenciliğinin bir diğer özelliği ise daha önceden bilinmeyen, veri ambarları içerisinde bulunan ancak ilk bakışta görülemeyen bilgilerin ortaya çıkarılmasını sağlıyor. Bu sayede herhangi bir işletme, kurum veya kuruluş ortaya koyduğu ürünü analiz edebilmekte, ilerideki faaliyetlerini şekillendirebilmekte ve ortaya koyulan ürünlerle ilgili bağları keşfedebilmektedir. Bu işlemdeki amaç daha önceden fark edilemeyen veri kümelerinin bulunmasını kapsıyor.

Günümüzün ekonomik koşullarının da etkisiyle yaşanan hızlı değişim ortamlarında, iş deneyimi ve sezgilere dayanarak alınan kararlarda yanlış karar alma olasılığı oldukça yüksek. Bu riski azaltmanın en önemli yolu ise bilgiye dayalı yönetimi öngören karar destek çözümlerinin oluşturulmasından geçiyor. Veri madenciliği kavramı, bu bağlamda karar destek sistemlerinin oluşturulmasında oldukça önemli rol oynamaktadır ve yardımcı konumunda bulunuyor. Bu doğrultuda bilgi teknolojilerinden yararlanmak kaçınılmaz bir hale geliyor.

 

 

Gücü pekiştiren bir unsur

Veri madenciliği uygulamalarını büyük hacimde veri bulunan her yerde kullanmak mümkündür. Bu uygulamalar günümüzde özellikle de karar verme sürecine ihtiyaç duyulan birçok alanda yaygın olarak kullanılmaktadır. Bu alanlar arasında pazarlama, biyoloji, bankacılık, sigortacılık, borsa, perakendecilik, telekomünikasyon, genetik, sağlık, bilim ve mühendislik, kriminoloji, sağlık, endüstri, istihbarat vb. sektörler bulunmaktadır.

Son 20 yıldır geçen süreçte, dünyanın en önemli güç unsurlarında Amerika Birleşik Devletleri’nin çeşitli veri madenciliği uygulamaları kullandığı bilinmektedir. ABD’de çeşitli veri madenciliği algoritmalarının gizli dinlenmeden, vergi kaçakçılıklarının ortaya çıkarılmasına kadar çeşitli konularda uygulanmaktadır. Veri madenciliği ile ilgili yapılan kaynak taramaları, veri madenciliğinin en çok tıp, biyoloji ve genetik alanlarda kullanıldığını ortaya koymaktadır.

Veri madenciliğini etkileyen faktörler bulunuyor

Haldun Akpınar’a göre veri madenciliği temel olarak beş ana faktörden etkilenmektedir. Bunlardan ilki veridir. Veri, veri madenciliği alanının ilerlemesinden en önemli faktör olarak karşımıza çıkmaktadır. İkinci sırada donanım kavramı yer almaktadır. Gelişen bellek ve işlem hızı kapasitesi sayesinde, birkaç yıl önce madencilik yapılamayan veriler üzerinde çalışmayı mümkün hale getiren donanım kavramıdır. Üçüncü sırada bilgisayar ağları yer almaktadır. Bilgisayar ağları; yeni nesil internet, çok yüksek hızları kullanmayı sağlamıştır. Bu doğrultuda bir bilgisayar ağı oluşturulduktan sonra, dağıtık verileri analiz etmek ve farklı algoritmaların kullanımı da mümkün bir hale gelecektir. Dördüncü sırada ise bilimsel hesaplamalar bulunmaktadır. Günümüz bilim insanları ve mühendisleri; simülasyonu, bilimin üçüncü yolu olarak görmektedirler. Veri madenciliği kavramı ve bilgi keşfi, teori, deney ve simülasyonu birbiri ile bağlantılı bir hale getirmekte önemli rol oynamaktadır. Beşinci ve son olarak ticari eğilimler ön plana çıkmaktadır. Günümüzde kurum, kuruluş ve işletmeler rekabet ortamında varlıklarını koruyabilmek için daha hızlı hareket etmek zorundadır ve rekabet stratejilerinde farklılıklara gitmelidir. Bundan dolayı daha yüksek kalitede hizmet sunmalıdır. Bütün bunları yaparken de minimum maliyeti ve en az insan gücünü göz önünde bulundurmalıdırlar.

Ortaya çıkan sorunlara dikkat edilmesi gerek

Büyük hacimli veri depolarının bulunduğu veri ortamlarında büyük sorunların ortaya çıkma riski oldukça yüksektir. Dolayısıyla küçük veri kümelerinde, benzetim ortamlarında hazırlanmış veri madenciliği sistemleri, büyük hacimli, eksik, gürültülü, boş, atık, aykırı veya belirsiz veri kümelerinin bulunduğu ortamlarda yanlış çalışabilme olasılığı da bulunmaktadır. Bu nedenle veri madenciliği uygulamaları sistemleri geliştirilirken, bu tür sorunların da çözümlenmesi gerekmektedir. Veri madenciliği uygulamalarında karşılaşılabilecek sorunlar şunlardır:

Artık Veri: Bu kavram, problemde istenilen sonucu elde etmek için kullanılan örneklem kümesindeki gereksiz nitelikleri kapsamaktadır. Bu durumun gerçekleşme olasılığı oldukça yüksektir ve pek çok işlem sırasında karşılaşılmaktadır.

Belirsizlik: Yanlışlıkların şiddetini ve verideki gürültünün derecesini ifade etmektedir.

Boş Veri: Bir veri tabanındaki boş değer, birincil anahtarda yer almayan herhangi bir niteliğin değerinin olma olasılığını ifade etmektedir. Boş değer, tanımı gereği kendisi de dahil olmak üzere hiçbir değere denk olamayan değerleri içermektedir.

Dinamik Veri: Kurumsal çevrimiçi veri tabanları dinamiktir ve içeriği sürekli olarak değişim göstermektedir. Bu durum bilginin keşfedilme sürecinde büyük sakıncaları da ifade etmektedir.

Eksik Veri: Veri kümesini hacminden ya da doğasından kaynaklanan bir durumu ifade etmektedir. Eksik veriler ile karşılaşıldığında yapılması gerekenler şunlardır:

  • Eksik veri içeren kayıt veya kayıtlar çıkarılabilir.
  • Değişkenin ortalaması eksik verilerin yerine kullanılabilir
  • Var olan verilere dayalı olarak en uygun değer kullanılabilir.

 Eksik veriler, yapılacak olan istatistiksel analizlerde önemli problemlerin doğmasına sebep olmaktadır. İstatistiksel analizler ve bu analizlerin yapılmasına olanak veren ilgili paket programlar, verilerin tümünün var olduğu durumlar için geliştirilmiştir.

Farklı Tipteki Verileri Ele Alma: Gerçek hayattaki uygulamalar makine öğreniminde olduğu gibi yalnızca sembolik veya kategorik veri türleri değil, fakat aynı zamanda tamsayı, kesirli sayılar, çoklu ortam verisi, coğrafi bilgi içeren veri gibi farklı tipteki veriler üzerinde işlem yapılmasını gerektirmektedir.

Gürültülü ve Kayıp Değerler: Veri girişi veya veri toplanması esnasında oluşan sistem dışı hatalar gürültü olarak adlandırılmaktadır. Büyük hacimli veri tabanlarındaki pek çok nitelik değer açısından yanlış olabilmektedir. Verilerin toplanması esnasında oluşan hatalara ölçümden kaynaklanan hatalar da dahil edilmektedir. Bu hataların neticesinde niteliğin değerinin yanlış olma ihtimali söz konusudur ve bu yanlışlardan dolayı veri madenciliği uygulamaları amacına kesin olarak ulaşamamaktadır.

Sınırlı Bilgi: Veri tabanları, genellikle basit öğrenme işlerini sağlayan özellik ya da nitelikleri sunmak gibi veri madenciliği dışındaki amaçları için hazırlanmaktadır. Bundan dolayı öğrenme yetisini kolaylaştıracak bazı özelliklerin bulunmama olasılığı da söz konusudur.

Veri Tabanı Boyutu: Veri tabanı boyutları gün geçtikçe büyük bir hızla artmaktadır. Veri tabanı algoritması çok sayıda küçük örneklemi ele alabilecek biçimde geliştirilmiştir. Aynı algoritmaların katsayı olarak çok büyük örneklemlerde kullanılabilmesi için dikkat edilmesi gerekmektedir.