Veri bilimi meslekleri ve uzmanlık alanları arasındakiilişkilerin veri madenciliği yaklaşımıyla analizi
Tarih
Yazarlar
Dergi Başlığı
Dergi ISSN
Cilt Başlığı
Yayıncı
Erişim Hakkı
Özet
Günümüzde artan veri nedeniyle veri bilimi alanında farklı uygulama alanlarına sahip meslekler ortaya çıkmıştır. Bu mesleklerin ortak ve farklı uzmanlık alanları bulunmaktadır. Aynı zamanda bu mesleklerde farklı ve ortak yeterlilikler gerekmektedir. Bu tez çalışmasının amacı, veri bilimi mesleklerinin uzmanlık alanları ve yeterlilik gereksinimleri açısından veri madenciliği yöntemleri ile analiz edilerek aralarındaki ilişkilerin ortaya konması ve bu mesleklerde kariyer planı yapacak olan kişiler için yol haritası oluşturulmasına yardımcı olmaktır. Kariyer ilanları barındıran ve aynı zamanda bir iş ağı olan Linkedin'deki veri bazlı meslek ilanları için Dünya genelinde açılmış olan 13.349 iş ilanı veri kazıma yöntemiyle elde edilerek veri seti oluşturulmuştur. Oluşturulan veri setine random forest, decision tree ve support vector machine sınıflandırma algoritmaları uygulanmıştır. Uygulanan algoritmalar içerisinden eğitim ve test verileri üzerinde başarımı en yüksek olan random forest algoritması kullanılmıştır. Random forest algoritması ile öznitelik seçimi veri seti üzerinde uygulanmıştır. Öznitelik seçimi ile belirlenen 29 değişken ile sınıflandırma analizi gerçekleştirilmiştir. Yine aynı veri setine apriori algoritması uygulanarak iş ilanlarına başvuran adayların yetenekleri analiz edilmiştir. Yapılan analizler sonucunda random forest algoritmasının sınıflandırma başarımı eğitim veri seti üzerinde %97.49, test veri seti üzerinde %84.64 olarak sonuçlanmıştır. Apriori algoritması ile ortak ve farklılık gösteren yetenekler belirlenmiştir.
Today, due to the increasing data, professions with different application areas have emerged in the field of data science. These professions have common and different areas of specialization. At the same time, these professions require different and common competencies. The aim of this thesis is to analyze data science professions in terms of specialization areas and qualification requirements with data mining methods and to reveal the relationships between them and to help create a road map for people who will make career plans in these professions. A data set was created by obtaining 13.349 job postings opened worldwide for data-based occupational postings on Linkedin, a business network that hosts career postings, by data scraping method. Random forest, decision tree and support vector machine classification algorithms were applied to the data set. Among the applied algorithms, the random forest algorithm with the highest performance on training and test data was used. Feature selection with random forest algorithm was applied on the dataset. Classification analysis was performed with 29 variables determined by feature selection. Apriori algorithm was applied to the same dataset and the skills of the candidates applying to job postings were analyzed. As a result of the analysis, the classification performance of the random forest algorithm was %97.49 on the training data set and %84.64 on the test data set. Common and different capabilities with the Apriori algorithm were identified.












