Data Scientist Takımı Kurmak



Yaklaşık iki yıl önce verinin, şirketler için önemini insan kaynakları siteleri üzerinden örnekleyerek anlattığım küçük bir makale yazmıştım. O gün verimizin ne kadar kıymetli olduğundan, kısa ve uzun vadede bize ne gibi faydası olabileceğinden bahsetmiştim. Bu bahsettiğim mevzulardan yola çıkarak başlangıç adımını oluşturması adına büyük analizler gerektirmeyen sadece var olan datayı kullanışlı halde kullanıcının yararına sunabilmek için bir örnek hazırlamıştım çalıştığım şirket için. O  çalışmalar geçen sene ortasında bir ürüne dönüştü. Kariyer Haritası adındaki bu projeye buradan ulaşabilirsiniz.

Bu projenin bizlere öğrettiği önemli iki nokta, verinin gücü ve bunun ne kadar kolay ürüne dönüşebileceği.

Data Science ve İş Stratejileri

Öncelikle, veri bilim dünyası ile iş stratejileri arasındaki ilişkiden ve veri bilim metotlarıyla çözülecek büyük seviye problemlerimizi seçmekten bahsedeceğim.

Sahip olduğumuz veri, kuracağımız şirket stratejilerinde bize yardımcı olması gereken en önemli kaynak olmalı. Sürekli sorduğumuz bazı soruları düşünelim;

  • En karlı müşteri kim?
  • En karlı müşteri ile ortalama bir müşteri arasında gerçekten bir fark var mı?
  • Müşterilerim kim? Sınıflandırabilir miyim?
  • Yeni müşterim, karlı olacak mı? Ne kadar gelir getirmesini beklemeliyim?

“Karlı” kelimesinin doğru tanımı ile birlikte en karlı müşteri, basit bir veri tabanı sorgusu ve birçok yan veri ile sunulabilir. İkinci soru ise aslında bir hipotez. İstatistiksel yöntemlerle doğruluğunu ya da yanlışlığını kanıtlayabiliriz. Karlı müşterinin cevabı, onları nasıl sınıflandırabiliriz sorusunu getiriyor. Çeşitli firmaların karakteristikleri birtakım sorgularla veri tabanından çıkarılabilir. Daha derin bir analiz ise karlı ve karlı olmayanların karakteristik farklılıklarını bize verebilir. Patternleri yakalamak tam olarak bir veri bilimcisinin işi. Ve son soru. Geçmişten elde ettiğimiz veri bize yeni şirketlere uygulayabileceğimiz ve daha sağlıklı tahminler yapabileceğimiz modeller sunabilir.

Karar verme desteği için en büyük beklenti, problemleri sağlıklı tanımlama, sağlıklı bir gösterim ve anahtar metrikleri raporlama. Kulağa kolay gelse de, ilgili metrikleri, ağırlıkları bulmak ve şirkete bunların alt dallarını kontrol noktalarını gösterebilmek gerçekten ayrı bir bilim dalı. Kötü seçilmiş metrikler çok kısa sürede bizleri kör noktalara götürebilir. Anlatmak istediğimi biraz açacak olursam, sadece sıcaklığı ölçmeyi bilen bir meteorolog düşünün. Bu kişinin hava tahmini her zaman hava basıncını bilen meteorologdan daha kalitesiz olacaktır. Ve hatta nemi kullanmayı bilen ikisinden de başarılı olacaktır.

Bizi Yönlendirmesi İçin Veriyi Kullanmak

Gelelim Kariyer.net in içinde bulunduğu sektörün getirdiği bazı soruları yazacağım.

  • Bir adayın ya da firma kullanıcısının site üzerinde yaptığı bir hareketin, alışkanlığın “değeri” ne?
  • Firmanın çıktığı ilan tipleri, aradığı aday özelliklerinde değişiklik var mı? Bu bize ne anlatıyor? Onlara akıllarındakini yapabilmek için doğru ürünleri ve altyapıyı sunabiliyor muyuz?
  • Hangi ürünlerimiz tuttu, hangileri çöpe gitti?
  • Ayrılan firmalar nereye, niye gidiyor?
  • Öneri sistemlerimizin gelişmesi gereken tarafları nelerdir? Nasıl daha iyi olabilir, gereken analitik çalışmalar nelerdir?

Bunların hepsini ve birçoğunu uzun zamandır soruyoruz ve sormaya da devam edeceğiz. Benim ise hep vurgulamak istediğim çok önemli nokta ise biz bu sorulara cevap ararken verilere ne kadar bakıyoruz? Geçmiş tecrübelerimizden ve başkalarınınkinden ne kadar yararlanıyoruz?

Şirket içi her toplantıda, yapılacak işle ilgili konuşmalardan, yaklaşımlardan ve sonuçtan önce herkesin sorması gereken ilk soru bana kalırsa, “evet beyler verileri görelim”. Bu bir şirket kültürü olmalı ve veriye herkes bakmalı. Sadece bu makalenin konusu olan veri bilimcileri değil, herkes. Gizliliğin el verdiği ölçüde şirket içerisindeki herkes veriye ulaşabilmeli ve kararlarını ona bakarak almayı öğrenmeli. “Data-driven company” de bunun terminolojideki yeni adı.

Yukarıdaki ve benzeri birçok “büyük sorular” a cevap arayabilmemiz için, var olan dataya dalacak, onları dışarıdan alacağı diğer bilgilerle eritecek (diğer departmanların tecrübe birikimleri, dünyadaki diğer örnekler) insanlara ihtiyacımız var. Hayali bir ekip tanımı yapayım. Bu veri bilim ekibi, rekabet ortamını anlamak, stratejileri ve taktikleri önceliklendirme, stratejik karar aşamalarında ortaya çıkabilecek hipotezleri sınamak ve açıklık getirmek için çalışmalılar.  Bu ekip bir problemi alır, mesela normalde “sistemde bir problem yok abi” cevabı verdiğimiz “bu ürün niye az kullanılıyor” gibi, araştırma, iç ve dış veri ile oynama, hipotez üretme, bunları sınama ve cevap üretmek için çalışırlar.

how-to-become-a-data-scientist-6-638

Ürünlerimizi, sitelerimizi yüzbinlerce insan kullanıyor olabilir. Peki biz bu kullanıcıların hikayelerini biliyor muyuz? Ay sonunda ya da yıl sonunda tek çıkardığımız bilgi excel hücrelerindeki değer ve buna bakarak çıkarmaya çalıştığımız özetler, raporlar ve ilerisi için tahminler.

Oysa yapıyor olmamız gereken şey, hikayeleri ortaya çıkarmak.

Kullanıcıların kullanım patternlerini ortaya çıkarmalıyız. Bu insanlar siteyi nasıl kullanıyorlar? Ortak alışkanlıkları nedir? Aynı ürünü kullananların ortak özellikleri nedir? Sadece mobilden siteyi kullananların istediği ne? Sık sık ya da nadiren giren kullanıcıların alışkanlıkları nelerdir? Popüler kullanım alışkanları nedir?

Kullanım durumlarını segmentlere ayırmalıyız. Mesela akla gelen önemli örneklerden biri, farklı sektördeki firmalar (farklı gelir, eğitim düzeyindeki kullanıcılar) ürünümüzü (sitemizi) farklı şekillerde mi kullanıyorlar? Eğer öyleyse bu gruplar için özelleştirilmiş profesyonel yardımlar (email, FAQ, site içinde özel yönlendirmeler) oluşturmamız gerekir.

Üretimin kalbinde..

Google ın veri ürünleri master ı google ın grip salgınlarını önceden tesbiti için yaptığı “Flu Trends” de veri ürünlerine harika örneklerden birisi. Verilerinin analizini yaparak Amerika Salgın Kontrol Merkezinden 2 hafta daha önce bir salgının başladığını tespit edebildi.

datascience-swing-flu

Google Grip Trendleri

Özellikle online yürüyen bir işimiz varsa, yapacağımız hareketlerin hep hızlı olması ve değişime açık olmamız gerektiği bir malum. Çalışmalarımız hep bir ürün üretmeye odaklı olmalı. Bu sebeptendir ki, bence bu günümüzün yeni altın kazıcıları üretimi destekleyecek en büyük güç ve hatta üretimi sürükleyecek noktada olmalı. Kimsenin ne yaptığını bilmediği, ne ürettiği bilmediği bunun avantajıyla gerçekten bir şey üretmeyen bir bilgisayara gömülü IT gurubu olmamalı. Buradan da kesinlikle yanlış bir yargı çıkmasın. Uygun olması için bize çok yakın bir şirketten Linkedin den bir örnek vermek gerekirse, kendi verilerini bilgiye ve ürüne dönüştürme akışında sahip oldukları devasa verileri offline ve canlı olarak istedikleri gibi inceleyebilmek için 3 tane büyük açık kaynak altyapı projesi ürettiler ve bunu gerçekten ihtiyaçları oldukları için yaptılar. Yani demem ki o, teknik yetkinlik bu işin çok büyük bir bölümü. Yeri gelmişken diğer nitelikler ise kesinlikle, merak, hikayeyi oluşturmak ve anlatabilmek, farklı bakış açısı da diğer nitelikleri olmalı bu veriyi ve bilimi kullanarak yeni bir şeyler üreten veri bilimci. Bu ekip matematikçiler, diğer database ci arkadaşlar ya da yazılımcılar olarak düşünmemeliyiz bence. Tamamen entegre çalışan design, yazılımcılar, ürün yöneticileri ve diğer analistlerin bir özütü olmalı.

Nerede hata yaparız?

Ne istediğimizi anlamak için ve tehlikeleri öngörebilmek için iki tane senaryo kurgulayalım ve muhtemel sonuçlarına bakalım.

Diyelim ki bir kişiyle yola çıkıp bir Data Science ekibi kurduk. Bir süre sonra bir takım analiz ve fikirlerle geldiler ve yöneticinin söylediği şey “Hmm, güzelmiş gerçekten ama bizim roadmapiz de bu yok”. Bu fikirleri geliştiren data scientist, hayal kırıklığına uğrayacak ve üretimi düşürecek. Sonuç olarak yönetim ekibin neler yapabileceği ve yaptıklarını ortaya çıkarmakta zorlanacak.
Diyelim ki bir kişiyle yola çıkıp bir Data Science ekibi kurduk. Henüz bir kaç gün içerisinde tfs ten 50 tane “şu raporu alabilir miyiz, şu projemizde kullanmamız lazım”, “firma şöyle bir şey istiyordu bence siz yapabilirsiz, excel raporu olarak alabilir miyiz acil olsun”, ya da “hepimizin bir sürü fikri vardı şu idea mail kutusunu bir boruyla arkadaşlara bağlayabilir miyiz ürün olabilecek şeyleri ve veri isteklerini bir yapsınlar”. Demem o ki kolayca soru ve istek bombardımanı altında kalınabilir. Uzun dönem hedef ve projelerle bu isteklerin dengesini ayarlamak gerekecektir. Her şey acil olamaz.
Çoğumuzun klasik çalışma biçimi olan, bir grubun ürünü tanımladığı, diğer grubun mock-upları çizdiği, data scientist in veriyi hazırladığı ve analizleri dökümante edip yazılımların yazdığı waterfall süreci bizi yine hataya sürekler diye düşünüyorum. Her veri projesi yeni bir deneyim ve dizaynda bu deneyim kritik bir parçası. En basitinden veri projeleri doğal olarak yüksek miktarda datayı canlı olarak işleyen yapılardır. İçerden ve dışarıdan bir çok veriyi işlerler. Ürün takımının en başından beri ortak yürümediği bir data takımı güvenilir bir yapı oluşturamaz. Burada aynı zamanda “scrum” metodolojisinin de çalışma hayatımız için çok önemli olduğuna da değinmek istiyorum.

Nasıl Başlanabilir

Bunun için Linkedin hikayesine bakalım.

Firma 2005 yılında ürün organizasyonunun bir parçası olarak 1 kişiyle başlamışlar. Bir datawarehouse ları dahi yokmuş.

O bir kişinin anlattığına göre ise, ilk olarak Facebook,Google, Yahoo, eBay ve Sun gibi firmaların teknik organizasyonlarına gitmiş ve “data scientistlerle” tanışmış ama tanıştığı insanların benzer şekilde cesaretsiz olduğunu görmüş. Genel sebebi ise firmaya etkilerinin çok olması ve yukarda bahsettiğim bu bizim roadmap imizde değil olarak yorumlamış.

Bir büyük duvara fikirlerini, veri içinde bulduklarını, haritaları, hipotez cevabı için bulunan node mapleri çizdiğini anlatıyor ve firmanın en iyi yaptığı işlerden birine People You May Know a dönüşürken ekibin yavaş yavaş 5 kişiye ulaştığından bahsediyor.2009 yılında ise gruba Data Scientist deniyor. Şuanda ise sadece Data Scientist ya da Datawarehouse yöneticisi olarak çalışan 60 ın üstünde insan var.

Bu arada webde araştırma yaparken rastladığım bir data scientistin yol haritası ve neler bilmeli içerikli resmi de paylaşmak istiyorum.

Becoming a Data Scientist - nirvacana.com/

Becoming a Data Scientist – nirvacana.com/

Dışardan Getirmek mi, Yetiştirmek mi?

Başlangıcın yetiştirmek ile olması gerektiğini düşünüyorum.

Data-driven ürün çıkarmak isteyen bir firmanın bir veri bilimcisinden beklemesi gereken en önemli şey, onun iş mantığını iyi anlaması. Yani bu kişi, iş arama siteleri için konuşalım yine, insan kaynaklarından, iş arama süreçlerinden, eleman arama süreçlerinden, kaliteli aday bulmaktan, adayları karşılaştırabilmekten, öneri sistemleri kurabilmekten anlaması, buradan çıkan önemli sorulara cevap getirebilmesi çok önemli bunun içinde tecrübesi ve bu dünyadaki bilgisi çok değerli.

İkinci olarak, diğer grup ve departmanlarla iç içe çalışması gerektiğini ifade ettiğim bu pozisyon için iletişim çok kritik. Dışarıdan getirilen kişilerin uzun süre iletişim ve deneyim problemi yaşadıkları bir gerçek.

Bunun yanında Kariyer.net te sadece 2, yenibiriş te 1 ve bir de hürriyetin 1 olmak üzere piyasada toplam 5 tane ilan var “Data Scientis” başlığı ile, ve başvuran sayıları ile başvuran kişiliklerin niteliklerine baktığımızda çok da fazla elde tutulacak insan olmadığını görüyoruz bu noktada.

Bunların dışında bir yazılım uzmanı gibi iş tanımı ve aranan niteliğin net olmadığı (şimdilik en azından) bir alan. Bu da yine içeriden birini yetiştirmemiz fikrini destekliyor.

Son Sözler

Gelecek veriyi düzgün toplamayı ve kullanmayı bilen şirketlere ait olacak. İster insanların özgeçmişleriye veri madenciliği yapın, ister milyonlarca gezginin yollarından harita inşa edin,ya da bit.ly gibi insanların birbirine attığı linkleri çalışın, bir sonraki başarılı girişimleri ve şirketlerin nesli verinin etrafında kurulacak. Bu işlerde uzmanlaşacak, şirketin bu alandaki tecrübesini biriktirip ileriye taşıyacak pozisyonları da oluşturmaya başlamak ve bu işi yürütebilecek insanlara, gruplara yatırım yapmaya başlamak gerekiyor.

The ability to take data — to be able to understand it, to process it, to extract value from it, to visualize it, to communicate it — that’s going to be a hugely important skill in the next decades.

Hal Varian, professor of information sciences, business, and economics at the University of California at Berkeley

Zamanım oldukça konuşulması gereken diğer konular üzerine de bir şeyler yazmak istiyorum. Siz de firmanızın veriyi bilgiye dönüştürmek için neler yaptığını, neler yapmadığını ve hatta “Data Scientist” dediğiniz adamlar var mı, paylaşırsanız beraber tartışabiliriz diye düşünüyorum. Yoksa sizin şirketiniz de sadece 5 tane sql sorgusu ile üretebileceğimiz raporlar ve kararlar için bile sözüm ona“ data mining” firmalarına bir sürü para verip bize bunu yap mı diyorlar? :)

Konu hakkında daha fazla bilgi ve veri bilimcisinin geçmesi gereken yolların derlendiği şu iki siteyle siz de bir yerinden başlayabilirsiniz bu yolculuğa. Sık sık tekrar uğrayıp deneyimlerinizi ve fikirlerinizi paylaşmanız dileğiyle..

http://www.zipfianacademy.com/blog/post/46864003608/a-practical-intro-to-data-science 

http://www.quora.com/How-do-I-become-a-data-scientist