سفارش تبلیغ
صبا ویژن

معرفی دیتاست های عمومی و رایگان برای پروژه های علم داده-قسمت دوم

چهارشنبه 100/4/23
12:41 عصر
طاهره توکلی

در پست قبل 11 دیتاست عمومی و رایگان برای اجرای الگوریتم های مختلف علم داده، داده کاوی و هوش مصنوعی معرفی کردیم. در ادامه در این پست 11 مجموعه داده دیگر را باهم بررسی می کنیم.

  1. متون گوگل

اگر به داده های واقعاً گسترده علاقه مند هستید، مجموعه داده های گوگل فراوانی کلمات و عبارات را بر اساس تعداد زیادی از منابع متنی به صورت سالانه می شمارد. حجم این مجموعه داده حدود 2.2 ترابایت است. اگرچه استفاده از این مورد برای یک پروژه تجسم داده ممکن است دشوار باشد ، اما یک مجموعه داده عالی برای تمیز کردن داده هاست.

  1. داده های یونیسف

یونیسف معتبرترین منبع برای اطلاعات مربوط به زندگی کودکان در سراسر جهان است. مجموعه داده های عمومی این سازمان تغذیه ، ایمن سازی و آموزش و... را شامل می شود که یک منبع عالی برای پروژه های تجسم داده است.

  1. کامنت های سایت ردیت

سایت Reddit یک مجموعه داده بسیار جالب از هر نظری که در این سایت ارائه شده را منتشر کرده است. حجم این مجموعه داده بیش از یک ترابایت است. بنابراین اگر می خواهید یک مجموعه داده کوچکتر برای کار کردن داشته باشید سایت Kaggle نظرات مه 2015 را در سایت خود جمع آوری کرده است.

 

دیتاست عمومی پروژه علم داده و داده کاوی

 

  1. ویکی پدیا

ویکی پدیا علاوه بر پروژه های دیگر بنیاد ویکی مدیا ، دستورالعمل هایی را برای بارگیری متن مقالات انگلیسی زبان ارائه می دهد. بارگیری پایگاه داده ویکی پدیا برای بازتاب و استفاده شخصی در دسترس است و حتی برنامه متن باز مخصوص به خود را دارد که می توانید برای بارگیری کامل ویکی پدیا در سیستم خود از گزینه های متنوع پردازش و تمیز کردن پروژه ها استفاده کنید.

  1. داده های Yelp

Yelp یک مجموعه داده رایگان برای استفاده در اهداف شخصی، آموزشی و دانشگاهی نگهداری می کند. این دیتاست شامل 6 میلیون بررسی است که شامل 189000 کسب و کار در 10 منطقه شهری است. دانشجویان از مشارکت در چالش مجموعه داده های Yelp استقبال می کنند و به شما گزینه های مختلفی برای انواع مختلف پروژه های داده می دهند.

  1. داده های ترند گوگل

گوگل یکی از بهترین مجموعه های داده برای تجزیه و تحلیل را داراست. شما می توانید مجموعه داده دلخواه خود را در قالب فایل CSV دانلود و با استفاده از نرم افزارها یا زبان های برنامه نویسی مختلف تجزیه و تحلیل کنید. همچنین امکان اینکه این داده ها را بر اساس موضوع، مکان و... دسته بندی و مرتب کنید وجود دارد.

  1. سازمان تجارت جهانی

سازمان تجارت جهانی مجموعه داده زیادی برای تجزیه و تحلیل در اختیار علاقه مندان قرار می دهد. کسانی که قصد کسب و کار در حوزه تجارت و پیش بینی های مربوط به آن را دارند از این مجموعه داده استقبال زیادی می کنند زیرا هم فرصت های زیادی برای ورود به علم داده فراهم می کند هم درک افراد را از صنعت تجارت زیادتر خواهد کرد.

  1. صندوق بین المللی پول

این سایت چندین مجموعه داده اکسل رایگان در حوزه شاخص های مختلف اقتصادی کلیدی از تولید ناخالص داخلی تا تورم دارد. گرفتن داده ها از چندین فایل مختلف و تجمیع آن ها، یک روش عالی برای تمیز کردن داده ها است.

 

مجموعه داده رایگان پروژه

 

  1. اداره اطلاعات انرژیِ ایالات متحده

این سایت داده های رایگان و در دسترسی در قالب فایل اکسل و google sheet از طریق افزونه و همچنین از طریق ویجت هایی که تجسم داده های تعاملی را فراهم می کنند، در اختیار افراد قرار می دهد. این مجموعه داده برای پروژه های یادگیری ماشین بسیار خوب عمل می کند.

  1. مجموعه داده تصاویر Tensorflow (CelebA)

برای تمرین در حوزه یادگیری ماشین، به یک مجموعه داده تخصصی مانند TensorFlow نیاز دارید. کتابخانه TensorFlow شامل انواع ابزارها، مدل ها و راهنماهای یادگیری ماشین به همراه مجموعه داده های خود است. CelebA بسیار گسترده و به صورت آنلاین در دسترس عموم است و شامل بیش از دویست هزار تصویر مشهور است.

  1. مجموعه داده متنی Tensorflow

یک مجموعه داده دیگر از کتابخانه Tensorflow به نام  Common Crawl’s Web Crawl Corpus

در بیش از 40 زبان وجود دارد. این دیتاست داده های هفت سال را در بر می گیرد و مبنعی عالی برای ارزیابی عملکرد مجموعه داده های یادگیری ماشین است.



معرفی دیتاست های عمومی و رایگان برای پروژه های علم داده-قسمت اول

دوشنبه 100/4/21
12:35 عصر
طاهره توکلی

در مسیر تبدیل شدن به یک دانشمند داده (data scientist) اولین قدم یافتن یک مجموعه داده مناسب برای تجزیه و تحلیل داده هاست. در طول این مسیر شما باید تصمیم بگیرید مجموعه داده در چه حوزه ای نیاز دارید و میخواهید این مجموعه داده چقدر بزرگ و نامرتب باشد. مرحله تمیز کردن داده ها (data cleaning) جزئی جدایی ناپذیر از علم داده است اما ممکن است تصمیم شما برای اولین پروژه ها این باشد که به جای تمیز کردن داده ها، روی تجزیه و تحلیل آن ها تمرکز کنید.

در این پست مجموعه داده هایی از انواع مختلف و پیچیدگی های گوناگون معرفی می کنیم که به نظر میرسد برای پروژه های اول خوب کار می کنند. این مجموعه داده ها منابع مختلفی را پوشش می دهند مانند داده های جمعیت شناختی، داده های اقتصادی، داده های متنی و داده های شرکتی

 

دیتاست مجموعه داده داده کاوی

 

  1. داده های سرشماری ایالات متحده

اداره سرشماری ایالات متحده مجموعه اطلاعات دموگرافیک را در سطح ایالت ، شهر و حتی کد پستی منتشر می کند. این مجموعه داده یک مجموعه خارق العاده برای دانشجویان علاقه مند به ایجاد تجسم داده های جغرافیایی است و از طریق وب سایت اداره سرشماری و همچنین از طریق API قابل دسترسی است. به طور کلی این داده ها بسیار تمیز و جامع هستند و به این دلیل که نیاز به تمیز کردن دستی آن ها وجود ندارد، برای پروژه های تجسم داده انتخاب خوبی هستند.

 

  1. اطلاعات جرم FBI

داده های جرایم FBI یکی از جذاب ترین مجموعه های داده در این لیست است. اگر به تجزیه و تحلیل داده های سری زمانی علاقه دارید، می توانید از آنها برای ترسیم تغییرات در میزان جرم در سطح کشور طی یک دوره 20 ساله استفاده کنید. همچنین می توانید از نظر جغرافیایی به داده ها نگاه کنید.

 

  1. علت مرگ

مراکز کنترل و پیشگیری از بیماری ها یک پایگاه داده در مورد علت مرگ نگهداری می کنند. داده ها را می توان تقریباً از هر لحاظ تقسیم بندی کرد: سن ، نژاد ، سال و غیره. از آنجا که این مجموعه داده بسیار گسترده است ، استفاده از آن برای پروژه های پردازش داده خوب است.

 

  1. کیفیت بیمارستان ها

مرکز خدمات پزشکی یک پایگاه داده در مورد کیفیت مراقبت در بیش از 4000 بیمارستان دارای گواهی مدیکر در سراسر ایالات متحده را نگهداری می کند و مقایسه های جالبی ارائه می دهد. از آنجا که این داده ها در چندین پرونده پخش می شود و درک کامل آن ممکن است به کمی تحقیق نیاز داشته باشد، می تواند یک پروژه تمیز کردن داده ها باشد.

 

  1. داده های مربوط به سرطان

دولت ایالات متحده داده هایی در مورد بروز سرطان دارد که باز هم بر اساس سن ، نژاد ، جنس ، سال و سایر عوامل تقسیم می شود. این مجموعه داده از برنامه نظارت ، اپیدمیولوژی و نتایج نهایی موسسه ملی سرطان به دست آمده است. داده ها به سال 1975 برمی گردند و 18 پایگاه داده دارند ، بنابراین گزینه های زیادی برای تجزیه و تحلیل خواهند داشت.

 

  1. اداره آمار کار

بسیاری از شاخص های مهم اقتصادی برای ایالات متحده (مانند بیکاری و تورم) را می توان در وب سایت Bureau of Statistics Statistics یافت. بیشتر داده ها را می توان هم از نظر زمان و هم از نظر جغرافیایی تقسیم بندی و برای پروژه های پردازش داده و تجسم داده استفاده کرد.

 

دیتاست علم داده داده کاوی

 

  1. دفتر تحلیل اقتصادی

دفتر تحلیل اقتصادی دارای داده های اقتصادی ملی و منطقه ای از جمله تولید ناخالص داخلی و نرخ ارز است. محدوده عظیمی در گروههای مختلف داده وجود دارد که می توان براساس مکان ، حساب های اقتصادی و موضوعات فهرست کرد. این گروه ها در زیرمجموعه های حتی کوچکتر نیز سازمان یافته اند.

 

  1. اطلاعات اقتصادی صندوق بین المللی پول

چند مجموعه داده مختلف در حوزه آمار اقتصادی جهانی در سایت صندوق بین المللی پول وجود دارد که می توان از آن برای طیف گسترده ای از پروژه ها مانند تجسم یا حتی تمیز کردن داده ها استفاده کرد.

 

  1. پیش بینی شاخص های سهام

پیش بینی قیمت سهام عمده ترین کاربرد تجزیه و تحلیل داده ها و یادگیری ماشین است. یک مجموعه داده مرتبط برای کاوش بازده هفتگی شاخص داو جونز توسط مرکز سیستم های یادگیری ماشین در دانشگاه کالیفرنیا منتشر شده است. این یکی از مجموعه هایی است که مخصوص پروژه های یادگیری ماشین ساخته شده است.

 

  1. داده های دولت انگلیس

در پورتال رسمی داده های دولت انگلیس ده ها هزار مجموعه داده در موضوعاتی مانند جرم، تحصیلات، حمل و نقل و بهداشت موجود است. از آنجا که این مجموعه داده یک منبع داده باز با میلیون ها ورودی است، شما قادر خواهید بود تمیز کردن داده ها را در گروه های مختلف تمرین کنید.

 

دیتاست مجموعه داده رایگان عمومی

 

  1. ایمیل های شرکت آمریکایی Enron

پس از فروپاشی Enron یک مجموعه داده رایگان از تقریباً پانصد هزار ایمیل با متن پیام و فراداده منتشر شد. این مجموعه داده اکنون مشهور است و یک زمینه آزمایش عالی برای تجزیه و تحلیل مرتبط با متن فراهم می کند. همچنین می توانید سایر کاربردهای تحقیقاتی این مجموعه داده را از طریق صفحه این شرکت جستجو کنید.



9 افزونه کاربردی کروم برای طراحان و برنامه نویسان وب

دوشنبه 100/3/17
2:56 عصر
طاهره توکلی

مرورگر کروم یکی از محبوب ترین و پر استفاده ترین مرورگرهایی است که امروزه استفاده می شود. این مرورگر تعداد بسیار زیادی افزونه دارد که به طراحان و توسعه دهندگان وب کمک میکند کارهای خود را در کمترین زمان ممکن انجام دهند و از این طریق کارایی خود را بالا ببرند.

در این پست 9 اکستنشن کروم که زندگی را برای توسعه دهندگان وب آسان می کند، معرفی می کنیم. این افزونه ها همگی تست شده اند و از لحاظ کارایی و رابط گرافیکی جزء بهترین ها هستند.

  1. whatFont

افزونه WhatFont ساده ترین راه برای شناسایی فونت های استفاده شده در صفحات وب است. این افزونه نه تنها نوع فونت، بلکه اندازه، وزن و رنگ دقیق فونت را هم مشخص می کند. اگر شما هم جزء کسانی هستید که از صفحات مختلف وب بازدید می کنید و از آن ها برای ایده گرفتن در کار خودتان استفاده می کنید، این اکستنشن را حتما نصب کنید.

 

افزونه کاربردی کروم برای برنامه نویسان

 

  1. whatRuns

افزونه whatRuns یک افزونه قدرتمند است که تمام ابزار و تکنولوژی های استفاده شده در یک صفحه وب را برای شما مشخص می کند. این ابزار و تکنولوژی ها شامل همه چیز از فریمورک استفاده شده، تکنولوژی وب، سیستم مدیریت محتوا، قالب و فونت ها است. این اکستنشن انقدر قدرتمند است که حتی زمان شروع و پایان استفاده از یک ابزار خاص را هم اعلام می کند.

 

افزونه کاربردی کروم برای برنامه نویسان

 

  1. window resizer

اگر در حال طراحی یک صفحه واکنش گرا (responsive) هستید، افزونه window resizer یکی از بهترین افزونه هایی است که به شما کمک میکند سایز صفحه خود را به ابعاد مختلف مانند ابعاد موبایل، تبلت، نمایشگر کامپیوتر و... تغییر دهید و سپس طراحی خود در این سایزها را تست کنید. این افزونه همچنین قابلیت آن را دارد که ابعاد دلخواه شما را برای کل پنجره یا بخشی از آن تنظیم کند.

 

افزونه کاربردی کروم برای برنامه نویسان

 

  1. CSS viewer

توانایی مشاهده کدهای CSS هر المان دلخواه در هر سایتی که مدنظر دارید، از قابلیت های این افزونه قدرتمند و کاربردی است. تنها کافی است المان مدنظر خود را انتخاب کنید تا پنجره ای از کدهای CSS برای شما نمایش داده شود.

 

?افزونه کاربردی کروم برای برنامه نویسان

 

  1. full stack optimization live test

این افزونه به شما اجازه می دهد به راحتی تمام صفحات وبی را که مدنظر دارید، بر اساس ویژگی های از پیش تعیین شده مثل seo یا web performance تست کنید. شما می توانید با استفاده از افزونه full stack optimization live test یک بازخورد نمایشی از صفحاتتان داشته باشید و متوجه شوید از ابتدای لود صفحه تا انتهای کار، در سایتتان چه اتفاقاتی می افتد.

 

افزونه کاربردی کروم برای برنامه نویسان

 

  1. colorZilla

افزونه colorZilla یک افزونه ساده اما بسیار کاربردی است که دقیقا هر آنچه ادعا میکند را به راحت ترین شکل ممکن انجام میدهد. با استفاده از قطره چکان و ابزار انتخاب رنگ، شما می توانید کد رنگی هر جزئی از تصویر را به دست بیاورید و آن را در سایر نرم افزارها مانند فتوشاپ، ایلوستریتور و... استفاده کنید. این ابزار همچنین قابلیت تولید گرادیانت CSS و آنالیز رنگ صفحات وب را فراهم می کند.

 

افزونه کاربردی کروم برای برنامه نویسان

 

  1. lorem ipsum generator

افزونه تولید متن آزمایشی لورم ایپسوم یک راه آسان و موثر تولید متن های پیش فرض برای قرار دادن در قسمت هایی از سایت است که به متن نیاز دارند. هر جمله به طور تصادفی تولید می شود تا نمونه ای از متن واقعی را بهتر نمایش دهد.

 

افزونه کاربردی کروم برای برنامه نویسان

 

  1. page ruler

افزونه page ruler مانند یک خط کش در دنیای وب عمل می کند و طول، عرض و موقعیت (بالا، پایین، چپ و راست) هر المان دلخواه از صفحه را اندازه گیری می کند. شما همچنین می توانید لبه های خط کش را بکشید و آن را تغییر سایز دهید.

 

افزونه کاربردی کروم برای برنامه نویسان

 

  1. web developer checklist

یکی از ابزارهای بسیار مفید برای برنامه نویسان و توسعه دهندگان، افزونه web developer است که سایت شما را در مواردی مانند seo ، قابلیت دسترسی، کارایی و... بررسی می کند. این افزونه به شما کمک می کند نقاط مشکل ساز سایت خود را شناسایی کنید و آن را اصلاح یا بهینه کنید.

 

افزونه کاربردی کروم برای برنامه نویسان

 



5 اشتباه رایج در sql که باید از آن پرهیز کنید

سه شنبه 100/3/11
3:39 عصر
طاهره توکلی

بسیاری از افراد تازه کار اشتباهات کوچک اما رایجی انجام می دهند که ممکن است آنان را تا مدت ها به خود مشغول کند و برای رفع آن مجبور شوند زمان بسیار زیادی را صرف کنند. اگر شما هم قصد دارید با پایگاه داده SQL شروع به کار کنید، بهتر است این اشتباهات را بشناسید تا به راحتی از پیش آمدن آنان جلوگیری کنید و به روند کدنویسی خود سرعت بیشتری ببخشید.

در این پست قصد داریم 5 اشتباه رایج در پایگاه داده sql server را معرفی کنیم.

 

انتخاب database اشتباه

زمانی که شما sql server management studio را باز می کنید و میخواهید یک query جدید بنویسید، دیتابیس به طور پیش فرض روی master است. در حالی که به احتمال زیاد شما قصد کار روی database دیگری دارید. پس فراموش نکنید که حتما قبل از اجرای query های خود، پایگاه داده مدنظر را چک کنید.

 

SQL SERVER 2019

 

اشتباه املایی در نوشتن دستورات

دستورات sql کلمات کلیدی خاصی دارد که باید حتما به طور درست نوشته شوند. گاهی یک کاراکتر اشتباه یا جابه جا شده باعث می شود کل دستور sql به درستی شناسایی نشود و قابل اجرا نباشد. بهترین راهکار برای چک کردن این مورد این است که به رنگ کلمات کلیدی توجه کنید. مثلا کلمه select در صورتی که درست نوشته شده باشد باید حتما به رنگ آبی دربیاید. اگر این کلمه را همچنان با رنگ مشکی می بینید احتمال اشتباه املایی در آن بسیار زیاد است. یک راهکار دیگر این است که کلمات کلیدی را با حروف بزرگ بنویسید تا هم به خوانایی دستور کمک کنید و هم کلمات کلیدی را از سایر اجرای دستور مثل نام جدول و ستون ها مجزا کنید.

 

SQL server 2019

 

علامت براکت  [] یا نقل قول  " حذف شده

علامت براکت و نقل قول به طور مکرر در sql استفاده می شود. این علامت ها باید حتما به صورت دوتایی یا جفت به کار بروند یعنی مثلا به ازای هر براکت باز، حتما یک براکت بسته وجود دارد و تمام متن مدنظر شما باید توسط علامت نقل قول احاطه شده باشد. در غیر این صورت sql متوجه نمی شود چه زمانی متن تمام و بقیه دستور آغاز می شود.

 

انتخاب اشتباه قسمتی از دستور

محیط sql server management studio جای مناسبی برای نوشتن دستورات sql و اجرای آن است. اگر تنها قسمتی از دستور را انتخاب کنید و دکمه اجرا را بزنید، فقط همان قسمت اجرا می شود.

مثلا در تصویری که مشاهده می کنید جدول Person.Person کامل هایلایت نشده است بنابراین نتیجه خطا دارد.

انتخاب بخشی از دستورات تنها زمانی مفید است که شما query های زیادی داشته باشید و بخواهید فقط تعدادی از آن را اجرا کنید.

 

sql server 2019

 

علامت ویرگول , و نقطه ویرگول ;

علامت ویرگول برای جداسازی اجزای لیست مثلا ستون های یک جدول استفاده می شود در حالی که علامت نقطه ویرگول برای نشان دادن پایان دستور به کار می رود. هریک از این علامت ها اگر کم تر یا بیشتر از حد نیاز یا در جای نامناسب باشند، باعث بروز مشکل می شوند.

یکی از راهکارهای مناسب برای اینکه در لیست ستون های مدنظرتان علامت ویرگول اضافی نداشته باشید، این است که علامت ویرگول را به جای اینکه بعد از نام ستون قرار دهید، قبل از آن بنویسید. در این صورت اگر یکی از ستون ها مخصوصا ستون آخر را حذف کنید، علامت ویرگول هم حذف خواهد شد و مشکلی پیش نمی آید.

 

sql server 2019

sql server 2019

شما می توانید برای یادگیری سیر تا پیاز sql server 2019 از مقدماتی تا پیشرفته به سایت الگوریتم اول مراجعه کنید و با استفاده از ویدئوهای آموزشی این پایگاه داده را به طور کامل یاد بگیرید.

 

منبع: سایت essentialsql



3 راهکار عالی برای اینکه SQL را به راحتی یاد بگیرید

دوشنبه 100/3/10
1:50 عصر
طاهره توکلی

اگر تا به حال قصد شروع یادگیری SQL را داشته اید ولی نمیدانستید از کجا باید شروع کنید و از یادگیری آن ناامید شده اید، این پست را حتما مطالعه کنید. در این پست 3 راهکار عالی برای یادگیری پایگاه داده SQL به شما معرفی می کنیم:

 

آموزش SQL

 

اولین قدم این است که اصلا خودتان را درگیر نوع پایگاه داده نکنید

در ابتدای یادگیری SQL ، بسیاری از افراد نمی دانند باید کدام پایگاه داده را از بین  MySQL ، Oracle و SQL Server و... انتخاب کنند. اگر بخواهیم صادق باشیم در ابتدای راه تفاوت زیادی بین این پایگاه داده ها وجود ندارد. آنچه مهم است یادگیری مفاهیم اصلی است که از این نظر تمام پایگاه داده های رابطه ای مفاهیم و نوشتار مشابه ای دارند.

فرض کنید ما یک جدول برای کارمندان به نام Employee داریم که شامل ستون های نام و نام خانوادگی است. دستور select برای تمام پایگاه داده های گفته شده مشابه یکدیگر است:

;Select firstname, lastname from Employee

همانطور که گفتیم در ابتدای راه باید تمرکز اصلی تان را روی یادگیری مفاهیم پایه و اصلی قرار دهید و سپس در مراحل بعد شروع به یادگیری جزئیات دستور این پایگاه داده ها کنید.

 

کامپیوترتان را آماده کنید

برای یادگیری SQL شما نیاز دارید با چالش ها و تمرین های زیادی مواجه شوید. پس بهتر است به مجموعه داده ی مدنظر دسترسی داشته باشید تا بتوانید به راحتی query های خود را اجرا کنید. یکی از راه های یادگیری این است که خودتان مجموعه داده را روی سیستم نصب کنید و تلاش کنید داده های مختلفی را با اجرای دستورات گوناگون از جدول بازیابی کنید. روش دیگری که برای یادگیری وجود دارد این است که از دوره ها و ویدئوهای آموزشی معتبر موجود در این زمینه استفاده کنید. شما می توانید با مراجعه به سایت الگوریتم اول دوره آموزش مقدماتی تا پیشرفته sql server 2019 را مشاهده کنید و پس از گذراندن آزمون ها و پروژه های این دوره، مدرک معتبر دانشگاه شیراز دریافت کنید.

 

آموزش پایگاه داده sql server

 

برای یادگیری، برنامه ریزی داشته باشید

یادگیری یک زبان برنامه نویسی جدید در ابتدای راه ممکن است کمی گیج کننده و سخت به نظر برسد. پس بهتر است ابتدا مشخص کنید چه عنوان هایی از زبان جدید را بیشتر نیاز دارید و بعد از مشخص کردن آن، با مراجعه به منابع معتبر آموزشی به این عنوان ها ترتیب زمانی بدهید تا همه مطالب را بعد از یادگیری مقدمات و پیش نیاز های آن یاد بگیرید. در این صورت دیگر مطمئن هستید که هیچ مبحثی را از قلم نینداخته اید و همه مطالب را به طور کامل فراگرفته اید.   



تمامی حقوق این وب سایت متعلق به امروز یاد بگیر، فردای درخشان تری بساز است. || طراح قالب avazak.ir