Kategoriler
Data Science

Introduction to Data Science II

Bill Howe’un dersi devam ediyor. Dersin contextinden bahsederken bazı güzel notlar sıralamış ve kendini kanıtlamış bazı data scientistlerden alıntılar yapmış. Kısaca bunlara bakalım:

drew_conway_venn_diagram

 

Drew Conway, Machine Learning’in bir adım öteye götürülebileceğini söylemiş. Verilerle uğraşmak aslında o kadar da kolay değil. Bu uğraş için pratik hacking yeteneği, iyi bir matematik ve istatistik bilgisi ve kısaca anlamlı ve süregelen bir uzmanlığa sahip olmak gerekiyor.

Peki LinkedIn‘de Chief Scientist olarak çalışan DJ Patil konuyla ilgili ne diyor?

Diyor ki, data scientist dediğimiz adamın aslında bilgisayar bilimleri altyapısından değil de, fizik ya da matematik gibi daha somut bir altyapıdan gelmesi gerektiği. Bunun sebebini de, altyapısında matematiksel bilimler olan bir insanın anlamlı veri yakalayabilmesi için çok daha fazla uğraşmasına, bu nedenle big picture dediğimiz bakış açısına odaklanmasına bağlıyor.

Mike Driscoll’a göre, data scientistleri şu üç önemli yeteneğe sahip olmalı: Statistics, Data Munging and Visualization. Statistics ve Visualization maddelerinin anlamları gayet açık. Data Munging ise elindeki veriyle oynayabilme yeteneği. Bill Howe’un slaytlarına göre kısaca parsing, scraping, formatting data diye gidiyor. Benim de şu üç madde arasından en çok hoşlandığım şey bu data munging, hatta bit.ly‘nin chief scientisti Hilary Mason’ın eşanlamlı kullandığı üzere data wrangling ya da data jujitsu. Bu iş iyi kotarılırsa, elde edilecek verinin görselleştirilmesinin inanılmaz bir zevk vereceği kanaatindeyim.

Kategoriler
Data Science

Introduction to Data Science

Bugün Coursera üzerinde University of Washington’dan Bill Howe’un verdiği Introduction to Data Science dersini almaya başladım. Big Data ve bu datanın işlenebilirliğine çok uzun zamandır, daha Big Data kavramını duymadığım zamanlardan beri büyük bir ilgi duyuyorum. Bu ders de klasik Relational Algebra’dan başlıyor ve Big Data’dan, şu sıralar oldukça ilgili olduğum NoSQL veritabanlarından, MapReduce’den, Declarative Languages’den vs. devam ederek gidiyor. Bill Howe, öğrencileri derse ısındırmak için güzel bir giriş yapmış ve ben de bu girişte yer alan ve Data Science ile alakalı bilgileri buraya yazmak istiyorum.

  • Nate Silver, 2012’de ABD’nin başkanlık seçimi üzerine yaptığı çalışmada elde ettiği sonuçları doğru şekilde değerlendirerek (yanlış anlamadıysam) eyalet bazında tüm sonuçları doğru tahmin etmiş. İnanılmaz!
  • Google’ın insanlık tarihindeki tüm kitapları dijital ortama aktarma niyetinde olduğunu ve bu niyetine büyük bir kaynak ayırdığını biliyoruz. Bunun yanı sıra Google, Ngram Viewer adında bir tool geliştirmiş. Dijitalize ettiği kaynakları gram bazında (1 kelime = 1 gram) ayırıyor ve bu tool ile belirttiğiniz yıllar arasında arama yapmak üzere istediğiniz kelimelerin sıklığını birbirleriyle karşılaştırmalı olarak verebiliyor. Bayıldım desem yeridir. Burdan ulaşabilirsiniz: http://books.google.com/ngrams
  • Google’ın kitapları dijital ortama aktarma niyetinden bahsetmişken, Bill Howe’dan öğrenmediğim bir bilgiyi de paylaşmak isterim. Google orijinli captcha sistemi iki yönlü çalışıyor. Bir yandan hepimizin bilgiği gibi sunucuya gelen isteklerin makineden mi yoksa insandan mı geldiğini anlamakta kullanılıyor. Birçoğumuzun bilmediği ise, Google’ın captcha’yı kullanarak kitapları dijital ortama aktardığı. Captcha her gün milyonlarca insan tarafından kullanılıyor ve siz bilmeden de olsa Google’ın kitapları dijital ortama taşımasına yardımcı oluyorsunuz. Nasıl mı oluyor? Captcha’da her zaman iki kelime bulunur. Bu kelimelerden birisinin textual karşılığı Google’ın veritabanlarında zaten bulunurken, diğeri bulunmuyor. Textual karşılığı bulunan kelime sizin insan olduğunuzu tespit etmekte kullanılırken, diğer kelimeyi de yazarak o kelimeyi Google’ın veritabanına kazandırmış oluyorsunuz. Dahiyane.
  • 1900’den 2000 yılına kadar yayınlanan kitaplar arasında “joy (keyif)” ile “sadness (üzüntü)” kelimeleri taranmış ve “joy – sadness” gibi basit bir cebir işlemine dayalı z-scorelar bulunmuş. Bu grafiği aşağıda veriyorum. Görür görmez tüylerimi ürperttiğini söylemeliyim.joy_sadnessÖzellikle 1940’lı yıllarda yaşanan inanılmaz düşüşü görebiliyoruz. Bu düşüşün İkinci Dünya Savaşı’na denk gelmiş olması rastlantı değil. Diğer yandan, aynı sonucu Birinci Dünya Savaşı’nda göremememiz ise o kadar da ilginç değil. Bu tarama İngilizce yayınlarda yapılmış ve Birinci Dünya Savaşı sırasında İngilizce yayınlar çıkaran milletlerin bu savaştan etkilenmediği ya da bu savaşın çıkarlarına olduğu görülebiliyor. 2000’li yıllarla birlikte “joy” üzerine yine bir artış mevcut. Umalım da böyle devam etsin.
  • Son olarak paylaşacağım bir grafik daha mevcut. Joy ve sadness kelimeleri ile yaptıkları veri eşeleme işleminin aynını “emotional words (duygu içeren kelimeler)” ile de yapmışlar ve aşağıdaki grafiği “emotional words – random words” gibi basit bir cebir işlemine dayandırmışlar.emotion_random1900’lü yıllardan 2000’li yıllara doğru görebildiğimiz üzere genel olarak bir duygu azalması mevcut. Yine İkinci Dünya Savaşı sırasında kırmızı çizgiyle gördüğümüz “fear (korku)” artışı ve diğer tüm duyguları geri planda bırakıp 2000’li yıllara doğru yeniden artışa geçen “fear” üzerine belki düşünülebilir.