28 MART 2017
SALI
21.11
Youtube
Youtube kanalım açıldı! Daha detaylı ve güncel konu anlatımları için takip etmeyi unutmayın.
Bilgiyi Keşfetmek (Knowledge Discovery)

Günümüzde hızlı büyüyen bir veri kümesi var. Bu kümeyi bir kovaya benzetirsek bizler kovanın yalnızca küçük bir bölümünü kulanıyoruz. Fakat her geçen saniye üretilmeye devam eden veriler arasında işe yaramayan verilerin ayıklanması oldukça güç. Öte yandan elde kalan verilerinde gerçekten işe yarar veri olduğunu tespit etmek ayrı bir güç istemekte. Bu sebeple bilginin keşfi konusu oldukça önemli bir hal alıyor.

 

"Aynı sonuca çıkan çok fazla bilgi, hiç olmayan bilgiden daha kötüdür" sözü benim kişisel bir görüşüm değil. Birçok kesim tarafından kabul görmüş bir söz. Açıkça anlaşılıyor ki elde edilen verilerin çok olması zaman zaman bilgiye ulaşma sürecimizi uzattığı gibi yanlış bilgiye ulaşıyor olma ihtimalimizi de güçlendiriyor. Gündelik hayatımızda "her kafadan bir ses çıkıyor" sözünün internet dünyasına yansıtılmış hali olarak görmeden geçemiyorum.

Şimdi bu bilgi keşfi ile ilgili olarak aşağıdaki örneklerimize bir göz atalım;

  • Google, internetlivestats verilerine göre anlık olarak incelemem sonucunda 20 saatte ortalama 4.5 milyar arama almış durumda.. Bu da sürekli oluşan bir veri demek ve hatta terabaytlarla ölçüldüğünü söyleyebiliriz.
  • Alexa, web site sahiplerinin dünya ve ülkelerinde diğer sitelerle olan yarışı olarak nitelendirebileceğimiz bir web sitesidir. Sitede yer alan veriler ortalama 10 yıldır saklanmakta ve bu 10 yıllık süreçte oluşturulan veri ortalama 500 terabayttan fazla...
  • Instagram, günümüzün popüler fotoğraf paylaşma aracı olarak hayatımıza dahil olalı aslında çok uzun bir süre geçmedi. Fakat şuan itibari ile baktığımızda 20 saatte 55 milyondan fazla fotoğrafın paylaşıldığını görebiliyoruz.
  • Youtube, yine 20 saati baz alarak söylemem gerekiyor ki izlenilen video sayısı 5 milyar!
  • Twitter, 20 saatte tam 570 milyon tweet'i daha veritabanına kaydetti!
  • Bugün tam 200 milyar elektronik posta gönderildi!

İşi biraz daha farklı bir boyuta taşıyalım..

Şuanda saniyede internet trafiği olarak geçen rakam 43.233 GB!

Veri çok hızlı bir şekilde büyüyor. Genele bakıldığında 2003 yılına kadar tüm dünya genelinde elde edilmiş veriyi son 14 yılda yeniden elde ettik! Yani 14 yıllık süreçte elde ettiğimiz veri 14 yıl öncesine kadar elde ettiğimiz tüm verilere eşdeğer! Bu durum gerçekten inanması güç bir hal almaya başladı.

Veri Madenciliği

Veri madenciliği, temelde var olan veriyi daha iyi sonuçlar elde etmek için işlenebilir veriye dönüştürmemize yardımcı olur. Bu konu hakkında basit bir örneğe şöyle bakabiliriz.

  • Bir kitap satışı gerçekleştiren sitede kurulan algoritma ile kullanıcının satın aldığı kitaplara bağlı olarak "Bunu satan alanlar bunu da satın aldı" gibi bir ibare ile alınan kitaba benzer özelliklerdeki bir başka kitabı da önerilenler arasında görmektedir.
  • Günümüzde bu olayı biraz daha farklı boyutlara taşıyan durumlarda söz konusu. Popüler sosyal medya sitesi Facebook üzerinde yer alan reklamlarda bir sistem olduğu söylentiler arasında. Sisteme göre yine popüler bir kitap firması üzerinden yaptığınız aramalara göre çalışan sistem, aradığınız kitaba dair yine bir "Benzer Kitaplar" olayını Facebook reklamlarında göstermek istiyor. Bu sayede arama motorları ile kitap arayan bir kişi eğer popüler kitap firmasının sitesini ziyaret etmiş ise Facebook'a döndüğünde o kitaba benzer başka kitapları reklamlar arasında görüyor. Bu da kişinin reklama tıklamasına ve benzer kitaplara göz atarken popüler kitap firmasının sitesini bir kez daha ziyaret etmesine sebep oluyor.

Bunlardan farklı basit bir hikaye yazalım;

- Elimizde bir kişiye ait twitter hesabı var. Fakat kişiye ait bildiğimiz tek şey bu. Yani elimizde bir twitter kullanıcı adı olan kişi hakkında bilgi elde etmek istiyoruz. Yapabileceklerimize göz atalım

NOT: Twitter adresinde genellikle isme ulaşmak biraz güç olabiliyor. Bu sebeple isim olmadığını varsayıyoruz.

  1. Twitter'da bio kısmına göz atarak kişi hakkında bir takım bilgilere erişebiliriz. Genellikle buralarda okuduğu okul, yaşadığı şehir, doğum tarihi gibi bilgiler yer almaktadır. Buradan kişinin okuduğu okulu ve doğum tarihi ele alabiliriz.
  2. Elimizde kişinin sadece okuduğu okul ve doğum tarihi var. O halde kişinin okula giriş yaptığı yılı ve okulun o seneki kayıtlarını okulun sitesinden bulabiliriz.
  3. Kişinin Twitter adresini ele alabiliriz. Eğer çok fazla paylaşıma sahipse ilk görsellere göz atabiliriz. Görsellerin exif bilgilerine bakarak çekildiği telefon hakkında fikir sahibi olabilir ve kişinin kullandığı telefonun modeline ulaşabiliriz.
  4. Twitter'da illaki bir resme sahiptir. Bu kendi resmi olmasa dahi kişiler eğer kendi resimlerini eklemezlerse genellikle birçok sosyal platformda aynı profil resmini kullanırlar. Bu bize büyük bir artı oluşturmaktadır. Kişinin profil resmini Google Görseller'de aratarak birçok sonuç elde edebiliriz. Mesela kişinin Facebook adresine ulaşma ihtimalimiz var.
  5. Eğer kişinin Facebook adresine ulaşırsak kişi hakkında birçok veriyi artık öğrenebiliriz demektir. Başta adını veya mesela hakkında kısmına göz atarak yaşadığı şehir veya tuttuğu takımı öğrenebilmemiz an meselesi.
  6. Yine Google aramalarından ilerlersek diğer sosyal platformlarına ulaşabiliriz. Mesela instagram adresine ulaşıp görsellerine bakabilir, eğer hesabı gizli ise bir hesap ile kendisini takip edebilir ve yine görsellere ulaşabiliriz.
  7. Günümüzde hemen herkesin bir kez dahi olsa elini sürdüğü blog sitelerinde yazıları vardır. Bu sebeple kişinin Google aramasından blog sitesine ulaşarak paylaşımlarına bağlı olarak ufak bir kişilik analizi yapabiliriz.
  8. 2. adıma dönerek kişinin okulunda adına göre bir arama yaparak okul numarasında ders gördüğü dersliklere kadar bir çok sonuca ulaşabiliriz.

Tek bir Twitter biosundan ve profil resminden ulaştığımız sonuçlara bir bakar mısınız? Bunlar sürekli artan veriler içerisinden yapılabilecek küçük bir analiz. Kimisi bunu yapanlara stalker diyor olabilir :D

Bilgi Keşfi

Bilgi keşfi temelde veri madenciliğini içerisine alan bir süreçtir. Bu süreç sonucu olarak üstü kapalı, kullanışlı veya anlaşılabilir olarak nitelendirebileceğimiz veriyi gün yüzüne çıkartmamızı sağlar.

YORUMLAR 0
Bu konuya henüz kimse yorum yapmadı.
İlk yorumu sen yapmak ister misin?
YORUM BIRAK
Şuanda bu yoruma cevap yazıyorsunuz:
İptal Et