之前的筆記移到這邊

為何學習這門課程?

此課程將帶你進入數據分析的世界。你將學習如何完成整個數據分析流程,包括:

  • 提出問題
  • 將數據處理成可以使用的格式,並解決數據格式相關問題
  • 研究數據並找到規律,得出你對數據的直覺
  • 得出結論和/或作出預測
  • 展示分析結果

你還將學習如何使用 Python 庫 NumPy、Pandas,以及使用 Matplotlib 編寫更加清晰、簡練、運行速度更快的代碼。

學習計劃

第 1 課:數據分析流程

在本課中,你將學習數據分析流程,包括提出問題、整理和探索數據、得出結論和/或進行預測,以及交流你的發現。你將僅使用 Python 完成 Udacity 學生數據分析,盡量不使用其他數據庫。

第 2 課:NumPy 和 Pandas 用於 1D 數據

在本課中,你將開始學習使用 NumPy 和 Pandas 來方便數據分析流程。本課重點是適用於一維數據的功能。你將學習如何使用 NumPy 數組、Pandas 序列和矢量運算。

第 3 課:NumPy 和 Pandas 用於 2D 數據

本課將繼續學習 NumPy 和 Pandas,但現在的重點是二維數據。你將學習如何使用二維 NumPy 數組和 Pandas DataFrames。你還會學習如何對數據分組以及對多個文件的數據進行整合。

先修要求

要學習這門課程,你需要能熟練地使用 Python 語言編程。

你應該熟悉 if 語句、循環、列表、集合和字典。要學習這些概念,請學習計算機科學入門課程

你還應該熟悉類、對像和模塊。要學習這些概念,請學習 Python 編程基礎課程

開始數據分析

接下來的內容分為兩部分:

字典簡介

在學習《數據分析入門》課程之前,你需要對字典有深入了解。如果你決定學習數據分析師納米學位項目,你也需要掌握這一知識。關於字典的這部分內容和我們在階段 2 涉及到的部分概念也很相似。

數據分析入門

你將與 Caroline 一起學習《數據分析入門》。這門課程是了解整個數據分析流程的最佳起點。在學習各節課之前,確保你已經了解各節課程的差異,以及相互之間的關系。這門課程還將介紹 Python 庫:NumPy、Pandas 和 Matplotlib,這些庫是用 Python 進行數據分析不可缺少的工具。它們具有各種便利的功能和高效的性能,使數據分析的編程部分輕松了許多!

這門課程需要你搜索和利用文檔。請積極搜索這門課程提到的 Python 庫的文檔:

那麼,我們開始吧!

# 工具介紹

對於數據分析師最為重要的工具,即 Anaconda 和 Jupyter notebook

Anaconda

Anaconda 是一個包含數據科學常用包的發行版本。它基於 conda,一個 package 和環境管理器衍生而來。你將使用 conda 創建環境,以便分隔使用不同 Python 版本和/或不同 package 的項目。你還將使用它在環境中安裝、卸載和更新包。通過使用 Anaconda,使我處理數據的過程更加愉快。

Jupyter notebook 是 Web 文檔,能讓你將文本、圖像和代碼全部組合到一個文檔中。它已經成為數據分析的標准環境。notebook 源自 2011 年的 IPython 項目,之後迅速流行起來。在本課程的第二節課中,你將獲得使用 notebook 進行分析工作的經驗。

讓我們繼續課程!首先學習 Anaconda。

Virtualenv

很多時候我們需要在不同版本的 library version,甚至是不同版本的 python,一般來說在同一台電腦運行不同版本常常會不太順。因此我們使用虛擬環境(virtual environment) Virtualenv

results matching ""

    No results matching ""