Data əldə edə biləcəyiniz 7 mənbə
  • Maya Bayramova
  • 3 Avqust 2019

Data əldə edə biləcəyiniz 7 mənbə

Data əldə edə biləcəyiniz 7 mənbə

 

1. Google Dataset Search

https://lh5.googleusercontent.com/foGP5wawN0-u0jLktXr3gi2WyFBALpInN1vnIg4S6uvTbf9JQ5tseY1e2-D-i4qeg6HpzJ3oCHI-eODfzlOi3Y9-1hbhH7hQu5A2mquDU9JdomwGPUuD_VBuv8ZFVcQdnAhttps://toolbox.google.com/datasetsearch

Google data setlər üçün xüsusi axtarış “motoru” yaradıb.Hələ də “Beta” halında olduğu üçün istənilən mövzu üçün çox yaxşı nəticələr vəd etməsə də datanı axtararkən ilk baxmalı olacağınız yerdir.

 

2. Kaggle

.

https://www.kaggle.com/datasets

Kaggle-Data Science müsabiqə saytıdır. Müxtəlif qruplar bəzi məlumatları və təklifi yayınlayırlar.Saytın istifadəçiləri müəyyən bir vaxt ərzində layihələri tamamlayırlar.Ən yaxşı tərəfi odur ki ,onların saytda paylaşdıqlarını pulsuz yükləmək mümkündür. Hal-hazırda saytda 12.000 data setləri var.

 

3. Github

https://github.com/search?q=datasets

Github internetdə paylaşılan kod anbarları üçün dünya standartıdır. Github sadecə koddan ibarət deyil. Data axtarmaq üçün yaxşı yer olmaqla bərabər bir çox layihənin olduğu bu platformada data setlərindən istifadə edə bilərsiniz. Github-da verilmiş başqa ictimai data resursları listini aşağıdakı link vasitəsilə nəzərdən keçirə bilərsiniz.

(https://github.com/awesomedata/awesome-public-datasets)


 

4. Data.gov

Əksər dövlət agentliklərində ictimaiyyətin istifadəsi və yükləməsi üçün çoxlu datalar mövcuddur. Siz şəhər, dövlət və federal data setlərini tapa bilərsiniz. Ətraf mühit, iqtisadiyyat, demoqrafiya və bir çox başqaları haqqında məlumat setləri də var.

https://www.data.gov/

https://www.usa.gov/statistics

https://www.federalreserve.gov/data.htm

https://www.bls.gov/

https://data.ca.gov/

https://datasf.org/opendata/

 

5. The World Bank

https://lh5.googleusercontent.com/1BCt4FCK1-D87kcxCwm89WPztkhtWh_ZRpdg-t1Sy3C-CZyJO-BrX35lUQ2mygnPiTxtr38dM_3WKbCniTuvcBojtw2kD-I6ASadNC33GMhkrxutHTuRf8puu62wumAXzw

https://data.worldbank.org/

Dünya Bankı bütün dünya ölkələri haqqında çoxlu sayda müxtəlif informasiya təmin edir.

 

6. FiveThirtyEight

https://lh4.googleusercontent.com/X4q1Yunn9Df9J8hDqSsJ2ZbHb4CJONsbxMMwsF3xUqP6zPQOx5V9lB7sNy8n5xKq6f1uiPdEPovwgYsAj4mcPeVGye59tclFSIQHjRnFeqRXyULQM7zzyCJ6oPs1bEw-Bg

https://data.fivethirtyeight.com/

FiveThirtyEight xəbər mövzularının geniş çeşidini əhatə edir və həmişə məqalələrinizdə məlumatları ehtiva edir.Hal-hazırda onlar istifadə etdikləri data setlərini paylaşırlar.Bu idman, mədəniyyət və siyasət haqqında məlumatların əla mənbəyidir.

 

7.Data.World

https://data.world/search

DATA Dünyası məlumat dəstlərinin(data sets) geniş çeşidinə malikdir və bu verilmiş məlumat layihəsinin digər iştirakçıları ilə asanlıqla əməkdaşlıq etməyə imkan verir.Bu saytda siz data dəstlərinə daxil olmaq üçün giriş yaratmağınız lazım olacaq.

 

Keyfiyyət Yoxlanışı(Quality Check)

İnternetdə tapa biləcəyiniz hər hansı bir məlumat dəsti üçün soruşmanız vacib olan bir neçə sual var.

1. Bəs bu məlumat mənbəyinə necə etibar edə bilərik?

Məlumat mənbəyinin reputasiyasını nəzərdən keçirin, onlar böyük bir təşkilat və ya bir şəxsdirlərmi?Əgər siz çox şübhəcisizisə eyni mövzu ilə bağlı başqa mənbələri də yoxlayın beləliklə rəqəmlərin doğruluğunu müqayisə edə bilərsiniz.Yuxarıda verilən mənbələr yüksək reputasiyaya əsasən sıralanıb.Ancaq bəzi DataWorld və GitHub kimi vebsaytlar hansı ki kənardan müdaxilə oluna bilir onlar barədə ehtiyatlı olmaq lazımdır çünki onlar çox güman ki, yoxlanılmır.

2. Bu məlumatlar qeyri-dəqiq ola bilərmi?

Məlumatları araşdırın,hər hansı bir sütun üçün maksimum və minimum olması lazım olanı qarşılaşdırın və sonra bu dəyərin həmin təxminin xaricində olub-olmadığını yoxlayın.Maksimum və minimumu tapmaq üçün ən yaxşı üsul onu hər bir sütuna görə artan və ya azalan şəkildə sıralamaqdır.Bu prosesi “Excel”-də və ya “Google Sheets”- də etmək üçün bütün datanı seçib filter ikonuna kliklədikdən sonra A-dan Z-ya və ya Z-dan A-ya seçimlərindən birini seçmək lazımdır.

https://lh6.googleusercontent.com/X-uCesVt0C8qLqKDYXXWjrKhLF-VivSPBfByiW-COwnmGsd77HDWKyV3YC0uJ3kVteWAk30-s8YJGQnBZuFqCTPUFu_ZCSYwqNT4zCwwMg9Bimq37tG1VTyMFoYxKQvRew

Çox vaxt isə daxil edilən data yanlış ola bilir məsələn:kimsə $11,000.00 əvəzinə $1,100.00 və ya $11,00.00 yaza bilər.Başqa mümkün nümunələrdən biri də məsələn, bəzən insanlar həqiqi telefon nömrələrini daxil etmək yerinə çoxlu 9999999999 və ya 0000000000 lar daxil edirlər.

3. Bu məlumatlar natamam ola bilərmi?

Çox vaxt datasetindəki data itmiş ola bilər.İstifadə etmək istədiyiniz hər hansı bir məlumat dəstində boş və ya itkin dəyərlərin mövcudluğunu yoxlamaq tövsiyə olunur.Bu prosesi etmək üçün Excel-də, məsələn, COUNTBLANK (boşluğu say)funksiyasından istifadə edə bilərsiniz.Məsələn aşağıdakı şəkildəki COUNTBLANK (B1:B3) boş sahe sayının 1 olduğunu göstərir.

https://lh6.googleusercontent.com/hg8u1jzeNizRt_RAxIlPQwFY7FbgfqkavTOoOJ4uHfv8SPNb8WtrovffQh2xX0upCDll3qeH0Ba7F_rURFglf7jSPshKEKsI3t1rrl4uvupgoVGDH4es6Q-F4cAUw8zk5w

4. Məlumatlar təhrif edilirmi?

Məlumat dəstində müxtəlif məlumat sütunlarını görüntüləmək üçün cəhd edin. Rəqəmli sütunlar üçün histogram istifadə edin.Hər bir sütun üçün hansı paylama növü mövcud olduğuna baxın (normal, sol, sağ, vahid, bimodal və s.).Qeyri-rəqəmli sütunlar üçün tezlik (frequency)cədvəlini istifadə edin, bu, əsasən bir dəyərdirmi?Bu şeylərin yoxlanılması məlumatların ümumi keyfiyyəti və analizdə hansı sütunların istifadə edilməsi barədə intuisiyanı qurmağa imkan verəcəkdir.

Ümumi Paylanma:

https://lh3.googleusercontent.com/ixmg7FhhAC1CUcNy5n0PpxA2_xpX3MQn6LtLgEhZdrTc2Zh9VHrPG4VsIUmLhG6_zuFZYgGKEcQmU1cPf-1IT4gyMRew72iDCp_c34Jop1XPZzambvwu9AY1rpUr27PXXw

Bir çox data alətlər bütün bu növ problemləri keyfiyyətli,tez və asanlıqla yoxlamağa imkan verir.Excel və Google Sheets .csv və ya excel fayllarını tez və asanlıqla istifadə edir.Burada daha üstün alətlər var hansı ki çoxlu sütunları eyni zamanda yoxlamaq mümkündür.məs:Alteryx.



 


Paylaş: