ডাটা সায়েন্স এর জারিজুরি ।আর্টিফিশিয়াল ইন্টেলিজেন্স

Reyad Rahman
17 min readJun 3, 2017

--

Information is the oil of the 21st century, and analytics is the combustion engine.

প্রথমত ডাটা কি ?

আপনি যে ফেসবুক এ স্ট্যাটাস দিচ্ছেন, ইন্সটাগ্রাম এ ছবি পোস্ট করতেসেন, স্ন্যাপচ্যাট এ ভিডিও দিচ্ছেন, ইউটিউবে ভিডিও দেখতেসেন, লাইক, কমেন্ট করতেসেন এগুলোর সবই ডাটা । এটা গেলো অনলাইনের উদাহরণ । অফলাইন এর উদাহরণ দিতে বললে বলবো আপনি প্রতিদিন যা যা করেন , তার সবই কোন না কোন ডাটা বা তথ্যের জন্ম দিচ্ছে ।

what is data?

তাহলে নিশ্চয়ই ডাটা সায়েন্স ডাটা নিয়ে কাজ কারবার!

জি, ঠিক ধরেছেন । পৃথিবীতে বর্তমান মানুষ জন এর সংখ্যা কত? প্রতিদিন কি পরিমাণ মানুষ বাড়ছে? এবং প্রতিদিন কি পরিমাণ ডাটা জেনারেট হচ্ছে ? নিচের এই ইনফোগ্রাফিক দেখলে আপনার চক্ষু চড়ক গাছ হয়ে যাবে!

Data Generation Per Moments

এতো এতো ডাটা নিয়ে আমরা কি করবো?

কত কিছু করার আছে! আপনি ফেসবুক এর মালিক হলে এই ডাটা ব্যবহার করে ইউজার দের জন্য সঠিক অ্যাডভারটাইজমেনট করতে পারবেন, অ্যামাজন এর মালিক হলে ইউজার কোন পণ্য পছন্দ করে সেটা বের করতে পারবেন তারপর সে অনুযায়ী বিজ্ঞাপন দিতে পারবেন! আবার উবার এর মালিক হলে ভিন্ন ভিন্ন ইউজার এর চাহিদা এবং টেস্ট অনুযায়ী একই দূরত্বে ভিন্ন ভিন্ন ভাড়া আদায় করতে পারবেন! এমন কোন ইন্ডাস্ট্রি নাই যেখানে ডাটা নিয়ে কাজ হয় না , কিংবা ডাটা সায়েন্স এর অ্যাপ্লিকেশন নাই!

যারা ডাটা নিয়ে কাজ করে তাদের বলে ডাটা সায়েন্টিস্ট!

Data Scientist

ইউএস এ ডাটা সায়েন্টিস্ট দের বেতন প্রতি বছর ডলারে! —

Data Scientists Salaries

একজন ডাটা সায়েন্টিস্ট হতে হলে কি কি জানতে হয় ?

Data Scientist Skills

ডাটা ইঞ্জিনিয়ার , ডাটা সায়েন্টিস্ট এবং ডাটা এনালিস্ট এর মধ্যে পার্থক্য —

Difference among Data Engineer, Data Scientist and Data Analyst

ডাটা সায়েন্স এর ইতিহাস (জুম করে দেখুন) —

History of Data Science

পুরো বিশ্ব যেভাবে আগাচ্ছে এবং যে গতিতে আগাচ্ছে আপনাকে একটা সময় না একটা সময় গিয়ে ডাটা সায়েন্স শিখতেই হবে, সে আপনি একটা কোম্পানি’র সিইও হোন, ম্যানেজার হোন , একাউন্টেন্ট কিংবা প্রোগ্রাম্মার হোন ।

ভবিষ্যতে ক্যারিয়ার —

The Future Of Employment

ডাটা সায়েন্টিস্ট হতে কি কি শিখতে হয় ?

Top 10 Data Science Skills

এতো গেলো সাধারণ একটা পরিচিতি । ইন্টারনেট এ ডাটা সায়েন্স নিয়ে যে পরিমাণ লেখালেখি হয়েছে , ব্লগ , বই , ভিডিও রয়েছে একজন গণিতে আর প্রোগ্রাম্মিং এ ভালো হলে শুধু সময় ইনভেস্ট করেই ডাটা সায়েন্টিস্ট হতে পারে প্রায় কোন খরচ ছাড়াই । কিন্তু এতো এতো টিউটোরিয়াল, ব্লগ, বইয়ের ভিড়ে একজন সহজেই হারিয়ে যেতে পারে । The Awesome List এর সাহায্য নিয়ে এই পোস্ট সেরা সেরা লেখক, তাদের টুইটার একাউন্ট, বই, পাব্লিকেশন এর একটা বিস্তারিত লিস্ট আমি এখানে দিলাম । নিজের পছন্দ মত শুরু করে দিন ডাটা সায়েন্স শেখা এবং অনুশীলন করা । ওহ শেয়ার করতে ভুলবেন না! ;)

আরেকটা কনফিউশন হতে পারে আপনি পাইথন শিখবেন না R প্রোগ্রাম্মিং শিখবেন । আশা করি নিচের এই ইনফোগ্রাফ দেখলে সেটাও দূর হয়ে যাবে!

Python vs R Programming

এই লেখার একদম শেষ অংশে কোর্স এবং বইয়ের লিস্ট দেয়া হয়েছে । আমার সাজেশন থাকবে আগের শুরু’র ব্লগ, ওয়েবসাইট এগুলো ঘুরে ঘুরে দেখা, নতুন নতুন টার্ম শিখে নোট করে রাখা । তারপর কোর্স বা বই যে কোনটা শুরু করতে পারেন ।

ডাটা সায়েন্স ব্লগ —

ডাটা সায়েন্স ব্লগার —

ডাটা সায়েন্স এর উপর পডকাস্ট —

ডাটা সায়েন্স নিয়ে ফেসবুক এ —

ডাটা সায়েন্স নিয়ে টুইটার এ যাদের ফলো করবেন —

  • Big Data Combine — Rapid-fire, live tryouts for data scientists seeking to monetize their models as trading strategies
  • Big Data Mania — Data Viz Wiz | Data Journalist | Growth Hacker | Author of Data Science for Dummies (2015)
  • Big Data Science — Big Data, Data Science, Predictive Modeling, Business Analytics, Hadoop, Decision and Operations Research.
  • Charlie Greenbacker — Director of Data Science at @ExploreAltamira
  • Chris Said — Data scientist at Twitter
  • Clare Corthell — Dev, Design, Data Science @mattermark #hackerei
  • DADI Charles-Abner — #datascientist @Ekimetrics. , #machinelearning #dataviz #DynamicCharts #Hadoop #R #Python #NLP #Bitcoin #dataenthousiast
  • Data Science Central — Data Science Central is the industry’s single resource for Big Data practitioners.
  • Data Science London Data Science. Big Data. Data Hacks. Data Junkies. Data Startups. Open Data
  • Data Science Renee — Documenting my path from SQL Data Analyst pursuing an Engineering Master’s Degree to Data Scientist
  • Data Science Report — Mission is to help guide & advance careers in Data Science & Analytics
  • Data Science Tips — Tips and Tricks for Data Scientists around the world! #datascience #bigdata
  • Data Vizzard — DataViz, Security, Military
  • DataScienceX
  • deeplearning4j -
  • DJ Patil — White House Data Chief, VP @ RelateIQ.
  • Domino Data Lab
  • Drew Conway — Data nerd, hacker, student of conflict.
  • Emilio Ferrara — #Networks, #MachineLearning and #DataScience. I work on #Social Media. Postdoc at @IndianaUniv
  • Erin Bartolo — Running with #BigData — enjoying a love/hate relationship with its hype. @iSchoolSU #DataScience Program Mgr.
  • Greg Reda Working @ GrubHub about data and pandas
  • Gregory Piatetsky — KDnuggets President, Analytics/Big Data/Data Mining/Data Science expert, KDD & SIGKDD co-founder, was Chief Scientist at 2 startups, part-time philosopher.
  • Gregory Piatetsky — KDnuggets President, Analytics/Big Data/Data Mining/Data Science expert, KDD & SIGKDD co-founder, was Chief Scientist at 2 startups, part-time philosopher.
  • Hakan Kardas — Data Scientist
  • Hilary Mason — Data Scientist in Residence at @accel.
  • Jeff Hammerbacher ReTweeting about data science
  • John Myles White Scientist at Facebook and Julia developer. Author of Machine Learning for Hackers and Bandit Algorithms for Website Optimization. Tweets reflect my views only.
  • Juan Miguel Lavista — Principal Data Scientist @ Microsoft Data Science Team
  • Julia Evans — Hacker — Pandas — Data Analyze
  • Kenneth Cukier — The Economist’s Data Editor and co-author of Big Data (http://big-data-book.com ).
  • Kevin Davenport — Organizer of https://meetup.com/San-Diego-R-Users-Group/
  • Kevin Markham — Data science instructor, and founder of Data School
  • Kim Rees — Interactive data visualization and tools. Data flaneur.
  • Kirk Borne — DataScientist, PhD Astrophysicist, Top #BigData Influencer.
  • Linda Regber — Data story teller, visualizations.
  • Luis Rei — PhD Student. Programming, Mobile, Web. Artificial Intelligence, Intelligent Robotics Machine Learning, Data Mining, Natural Language Processing, Data Science.
  • Machine Learning — Live Content Curated by top 1K Machine Learning Experts
  • Mark Stevenson — Data Analytics Recruitment Specialist at Salt (@SaltJobs) | Analytics — Insight — Big Data — Datascience
  • Matt Harrison — Opinions of full-stack Python guy, author, instructor, currently playing Data Scientist. Occasional fathering, husbanding, ult|goalt-imate, organic gardening.
  • Matthew Russell — Mining the Social Web.
  • Mert Nuhoğlu Data Scientist at BizQualify, Developer
  • Monica Rogati — Data @ Jawbone. Turned data into stories & products at LinkedIn. Text mining, applied machine learning, recommender systems. Ex-gamer, ex-machine coder; namer.
  • Noah Iliinsky — Visualization & interaction designer. Practical cyclist. Author of vis books: http://www.oreilly.com/pub/au/4419
  • Paul Miller — Cloud Computing/ Big Data/ Open Data Analyst & Consultant. Writer, Speaker & Moderator. Gigaom Research Analyst.
  • Peter Skomoroch — Creating intelligent systems to automate tasks & improve decisions. Entrepreneur, ex Principal Data Scientist @LinkedIn. Machine Learning, ProductRei, Networks
  • Prash Chan — Solution Architect @ IBM, Master Data Management, Data Quality & Data Governance Blogger. Data Science, Hadoop, Big Data & Cloud.
  • Quora Data Science Quora’s data science topic
  • R-Bloggers — Tweet blog posts from the R blogosphere, data science conferences and (!) open jobs for data scientists.
  • Rand Hindi
  • Randy Olson — Computer scientist researching artificial intelligence. Data tinkerer. Community leader for @DataIsBeautiful. #OpenScience advocate.
  • Recep Erol — Data Science geek @ UALR
  • Ryan Orban — Data scientist, genetic origamist, hardware aficionado
  • Sean J. Taylor — Social Scientist. Hacker. Facebook Data Science Team. Keywords: Experiments, Causal Inference, Statistics, Machine Learning, Economics.
  • Silvia K. Spiva — #DataScience at Cisco
  • Spencer Nelson — Data nerd
  • Talha Oz — Enjoys ABM, SNA, DM, ML, NLP, HI, Python, Java. Top percentile kaggler/data scientist
  • Tasos Skarlatidis — Complex Event Processing, Big Data, Artificial Intelligence and Machine Learning. Passionate about programming and open-source.
  • Terry Timko — InfoGov; Bigdata; Data as a Service; Data Science; Open, Social & Business Data Convergence
  • Tony Baer — IT analyst with Ovum covering Big Data & data management with some systems engineering thrown in.
  • Tony Ojeda — Data Scientist | Author | Entrepreneur. Co-founder @DataCommunityDC. Founder @DistrictDataLab. #DataScience #BigData #DataDC
  • Vamshi Ambati — Data Science @ PayPal. #NLP, #machinelearning; PhD, Carnegie Mellon alumni (Blog: https://allthingsds.wordpress.com )
  • Wes McKinney — Pandas (Python Data Analysis library).
  • WileyEd — Senior Manager — @Seagate Big Data Analytics | @McKinsey Alum | #BigData + #Analytics Evangelist | #Hadoop, #Cloud, #Digital, & #R Enthusiast
  • WNYC Data News Team — The data news crew at @WNYC. Practicing data-driven journalism, making it visual and showing our work. @SkymindIO’s open-source deep learning for the JVM. Integrates with Hadoop, Spark. Distributed GPU/CPUs | http://nd4j.org | https://www.skymind.ai/

নিউজলেটার —

ডাটা সায়েন্স জারনাল/পাব্লিকেশন/ম্যাগাজিন —

ডাটা সায়েন্স এর উপর প্রেজেন্টেশন —

ডাটা সায়েন্স কম্পিটিশন -

ডাটা সায়েন্স এর উপর বই —

ওপেন সোর্স -

ডাটা সায়েন্স এর উপর বই এর কথা আসলে শুরু তে যে বই টা থাকবে সেটা হলো -

Bayesian Methods for Hackers

Bayesian Methods for Hackers

পাইথন এ লেখা এই বই যে কারো জ্ঞান ভান্ডার সমৃধ করবে ।

বই এ রয়েছে —

বইয়ের গিটহাব লিঙ্ক — Bayesian Methods for Hackers

ফ্রি বইয়ের তালিকা —

Think Stats

Think States

From Algorithms to Z Scores

From Algorithms to Z Scores

Introduction to Linear Algebra

Introduction to Linear Algebra

Matrix Computation

Matrix Computation

Introduction of Math of Neural Networks

Introduction of Math of Neural Networks

Introduction to Bayesian Statistics

Introduction to Bayesian Statistics

এছাড়া আরো যে ৯ টি বই আপনি পড়তে পারেন —

R for Data Science

R for Data Science

R for Everyone: Advanced Analytics and Graphics

R for Everyone: Advanced Analytics and Graphics

R Graphics Cookbook

R Graphics Cookbook

Applied Predictive Modeling

Applied Predictive Modeling

Mastering Machine Learning with R

Mastering Machine Learning with R

Practical Data Science with R

Mastering Python for Data Science

Mastering Python for Data Science

Introduction to Machine Learning with Python

Introduction to Machine Learning with Python

Programming Collective Intelligence

Programming Collective Intelligence

অনলাইনে ডাটা সায়েন্স এর উপর এই ২১ টা কোর্স করতে পারেন —

Data Science Specialization

Coursera’ র এই কোর্স এ আপনি একই সাথে R প্রোগ্রাম্মিং এবং ডাটা সায়েন্স শিখতে পারবেন ।

এই স্পেশালাইজড কোর্স এ আপনার প্রতি মাসে খরচ হবে ৪৯ ডলার । তবে আপনি ফ্রি তে এই কোর্স সম্পন্ন করতে পারবেন কিন্তু কোন সার্টিফিকেট পাবেন না ।

এই স্পেশাইলাইজড কোর্স এর অন্তর্ভুক্ত কোর্স সমূহ হচ্ছে —

  1. The Data Scientist’s Toolbox
  2. R Programming
  3. Getting and Cleaning Data
  4. Exploratory Data Analysis
  5. Reproducible Research
  6. Statistical Inference
  7. Regression Models
  8. Practical Machine Learning
  9. Developing Data Products
  10. Data Science Capstone

আর আপনি যদি পাইথন এ পারদর্শী হোন তবে এই এই কোর্স আপনার জন্য —

Applied Data Science with Python Specialization

এই স্পেশালাইজড কোর্স এ আপনার প্রতি মাসে খরচ হবে ৭৯ ডলার । তবে আপনি ফ্রি তে এই কোর্স সম্পন্ন করতে পারবেন কিন্তু কোন সার্টিফিকেট পাবেন না ।

এই স্পেশাইলাইজড কোর্স এর অন্তর্ভুক্ত কোর্স সমূহ হচ্ছে —

  1. Introduction to Data Science in Python
  2. Applied Plotting, Charting & Data Representation in Python
  3. Applied Machine Learning in Python
  4. Applied Text Mining in Python
  5. Applied Social Network Analysis in Python

কিংবা ধরেন ডাটা প্যাটার্ন রিকগনাইজ করা, ডাটা ভিজুয়ালাইজ করা এগুলা শিখতে চান তাহলে এই কোর্স আপনার জন্য ।

Data Mining Specialization

এই স্পেশালাইজড কোর্স এ আপনার প্রতি মাসে খরচ হবে ৭৯ ডলার । তবে আপনি ফ্রি তে এই কোর্স সম্পন্ন করতে পারবেন কিন্তু কোন সার্টিফিকেট পাবেন না ।

এই স্পেশাইলাইজড কোর্স এর অন্তর্ভুক্ত কোর্স সমূহ হচ্ছে —

  1. Data Visualization
  2. Text Retrieval and Search Engines
  3. Text Mining and Analytics
  4. Pattern Discovery in Data Mining
  5. Cluster Analysis in Data Mining
  6. Data Mining Capstone

ডাটা সায়েন্স এর আরেকটা জনপ্রিয় কোর্স দেয় ডাটা ক্যাম্প । আপনি যদি পাইথন এ বিগিনার ও হোন ডাটা ক্যাম্প এর এই কোর্স এর মাধ্যমে আপনি একাধারে পাইথন ব্যসিক, ডাটা মেনিপুলেশন, মেশিন লার্নিং লাইব্রেরিজ , কিভাবে ডাটা ইম্পোরট, ক্লিন, ম্যানিপুলেট এবং স্টোর করতে হয় এবং সেগুলো দিয়ে কিভাবে সুপারভাইজড এবং আন সুপারভাইজড মেশিন লার্নিং অ্যাপ্লিকেশন করা যায় তার সবই শিখতে পারবেন!

কোর্স এর নাম —

Data Scientist with Python

৬৭ ঘন্টা ব্যাপি এই প্যাকেজ কোর্স এ সর্বমোট ১৯ টা কোর্স রয়েছে ।

  1. Intro to Python for Data Science
  2. Intermediate Python for Data Science
  3. Python Data Science Toolbox (Part 1)
  4. Python Data Science Toolbox (Part 2)
  5. Importing Data in Python (Part 1)
  6. Importing Data in Python (Part 2)
  7. Cleaning Data in Python
  8. pandas Foundations
  9. Manipulating DataFrames with pandas
  10. Merging DataFrames with pandas
  11. Introduction to Databases in Python
  12. Introduction to Data Visualization with Python
  13. Interactive Data Visualization with Bokeh
  14. Statistical Thinking in Python (Part 1)
  15. Statistical Thinking in Python (Part 2)
  16. Supervised Learning with scikit-learn
  17. Unsupervised Learning in Python
  18. Network Analysis in Python (Part 1)
  19. Machine Learning with the Experts: School Budgets

আর যদি পাইথন না ব্যবহার করে R প্রোগ্রাম্মিং ব্যবহার করতে চান তবে ৯৫ ঘন্টা ব্যাপী এই কোর্স —

  1. Introduction to R
  2. Intermediate R
  3. Intermediate R — Practice
  4. Importing Data in R (Part 1)
  5. Importing Data in R (Part 2)
  6. Cleaning Data in R
  7. Importing & Cleaning Data in R: Case Studies
  8. Writing Functions in R
  9. Data Manipulation in R with dplyr
  10. Joining Data in R with dplyr
  11. Data Visualization in R
  12. Data Visualization with ggplot2 (Part 1)
  13. Data Visualization with ggplot2 (Part 2)
  14. Data Visualization with ggplot2 (Part 3)
  15. Introduction to Data
  16. Exploratory Data Analysis
  17. Exploratory Data Analysis in R: Case Study
  18. Correlation and Regression
  19. Foundations of Inference
  20. Machine Learning Toolbox
  21. Machine Learning Toolbox
  22. Text Mining: Bag of Words
  23. Reporting with R Markdown

মাইক্রোসফট প্রোফেশনাল ডাটা সায়েন্স কোর্স (সার্টিফিকেট)—

Microsoft Professional Program Certificate in Data Science

এই কোর্স চারটা ইউনিট এ বিভক্ত —

  1. Data Science Orientation
  2. Querying Data with Transact-SQL
  3. Analyzing and Visualizing Data with Excel OR Analyzing and Visualizing Data with Power BI
  4. Statistical Thinking for Data Science and Analytics
  • Unit 2 — Core Data Science
  1. Introduction to R for Data Science Course OR Introduction to Python for Data Science
  2. Data Science Essentials
  3. Principles of Machine Learning
  • Unit 3 — Applied Data Science
  1. Programming with R for Data Science OR Programming with Python for Data Science
  2. Applied Machine Learning OR Developing Intelligent Apps
  3. Implementing Predictive Solutions with Spark in Azure HDInsight
  • Unit 4 — Capstone Project — Cortana Intelligence Competition
  1. Data Science Professional Project

ডাটা কোয়েস্ট এর আরো দুটো প্রিমিয়াম কোর্স আছে — ৪৯ ডলার/মাস বা ১৯৯ ডলার/মাস ভিত্তিতে ।

Data Scientist

Steps:

  • Python Introduction
  • Data Analysis and Visualization
  • Working with Data Sources
  • Statistics and Linear Algebra
  • Machine Learning
  • Advanced Python and Computer Science
  • Advanced Topics in Data Science
  • Working with Large Datasets
  • Learning R

Data Analyst

Steps:

  • Introduction to Python
  • Python Applications
  • Intermediate Python and Pandas
  • Data Manipulation
  • Working with Data Sources
  • Probability and Statistics
  • Learning R

ইউটিউব এ শিখতে চাইলে নিচের চ্যানেল গুলো দেখতে পারেন —

Data School — Data science for beginners! | ডাটা সায়েন্স

edureka! | ডাটা সায়েন্স

Zipfian Academy | ডাটা সায়েন্স

David Langer | R প্রোগ্রাম্মিং এর সাথে ডাটা সায়েন্স

Derek Kane | ডাটা সায়েন্স

MarinStatsLectures | স্ট্যাটিস্টিক্স

LearnR | R প্রোগ্রাম্মিং

Christoph Scherber | স্ট্যাটিস্টিক্স

Brandon Foltz | স্ট্যাটিস্টিক্স

statisticsfun | স্ট্যাটিস্টিক্স

Java and R Tutorials | R প্রোগ্রাম্মিং

bigdata simplified | All things big data

Derek Banas | Playlists on SQL and Python

আরো রিসোর্স —

  1. Complete Course on Linear Algebra by MIT
  2. Complete Course on Multivariable Calculus by MIT
  3. Statistical Learning by Stanford University
  4. Mathematics at Khan Academy
  5. Full Cheatsheet on Probability
Tiger Digital

আমি রিয়াদ রহমান , কাজ করি আর্টিফিশিয়াল ইন্টেলিজেন্স, ডাটা সায়েন্স নিয়ে । ফেইসবুক এ আমিলিঙ্কইডইন এ আমিটুইটার এ আমাকে টুইট করুন । আমার প্রতিষ্ঠান টাইগার ডিজিটাল আমাদের কাজ । আমাদের বাঘা প্রজেক্ট । আমাদের বাঘ.com এবং মুক্তিযুদ্ধ.com 😎😎😎

Corporate Inquiry — hello@tigerdigital.xyz

Personal — ireyadrahman@gmail.com

Tiger Digital — Your Uber For Digital Services

--

--