學習大數據需要什麼基礎?

湯圓和辣條


大數據涉及的面太廣,可以基於我在金融領域做數據的多年經驗,談一點關於入門看法:

定位:走技術,還是走業務?

在一個組織裡,大數據的架構基本分中臺和前臺。中臺負責整個集團的數據收集、加工處理、產品整合;前臺主要是負責產品的運營、數據的運用。

所以大數據的崗位,也可以分為技術類(中臺)和業務類(前臺)。

根據你個人的性格、能力以及未來的規劃,選定一個方向。

技能:適合於任何崗位的基礎技能

1.Excel數據處理、分析、繪圖、常用函數、數據透視表等。

2.SQL類語言,基本的查詢、統計等。

3.Python語言,這是最適合入門型的語言,而且Python應用廣泛,包括數據爬取、自動化任務腳本、數據建模、人工智能等等。

4.PPT製作和一定的表達能力,將分析結果形象、具體的展現出來,可以給你額外加分。

5.業務理解能力,不管你是技術類還是業務類,都需要始終以業務為核心,擺脫業務,數據沒有任何價值,所以必須充分的理解業務需求,才能讓數據更好的產生價值。

如果對大數據方面的問題感興趣,歡迎留言交流。


威廉職場成長


1、學習大數據首先要學習Java基礎

  怎樣進行大數據學習的快速入門?學大數據課程之前要先學習一種計算機編程語言。Java是大數據學習需要的編程語言基礎,因為大數據的開發基於常用的高級語言。而且不論是學習hadoop,還是數據挖掘,都需要有編程語言作為基礎。因此,如果想學習大數據開發,掌握Java基礎是必不可少的。

  2、學習大數據必須學習大數據核心知識

  Hadoop生態系統;HDFS技術;HBASE技術;Sqoop使用流程;數據倉庫工具HIVE;大數據離線分析Spark、Python語言;數據實時分析Storm;消息訂閱分發系統Kafka等。

  如果把大數據比作容器,那麼這個容器的容量無限大,什麼都能往裡裝,大數據離不開物聯網,移動互聯網,大數據還和人工智能、雲計算和機器學習有著千絲萬縷的關係,大數據海量數據存儲要高擴展就離不開雲計算,大數據計算分析採用傳統的機器學習、數據挖掘技術會比較慢,需要做並行計算和分佈式計算擴展。

  數學知識,數學知識是數據分析師的基礎知識。對於數據分析師,瞭解一些描述統計相關的內容,需要有一定公式計算能力,瞭解常用統計模型算法。而對於數據挖掘工程師來說,各類算法也需要熟練使用,對數學的要求是最高的。

  編程語言,對於想學大數據的同學,至少需要具備一門編程語言,比如SQL、hadoop、hive查詢、Python等均可。

  3、學習大數據可以應用的領域

  大數據技術可以應用在各個領域,比如公安大數據、交通大數據、醫療大數據、就業大數據、環境大數據、圖像大數據、視頻大數據等等,應用範圍非常廣泛,大數據技術已經像空氣一樣滲透在生活的方方面面。大數據技術的出現將社會帶入了一個高速發展的時代,這不僅是信息技術的終極目標,也是人類社會發展管理智能化的核心技術驅動力。


西門戒戒


首先,學習大數據是需要有java,python和R語言的基礎。

1) Java學習到什麼樣的程度才可以學習大數據呢?

java需要學會javaSE即可。javaweb,javaee對於大數據用不到。學會了javase就可以看懂hadoop框架。

2) python是最容易學習的,難易程度:python java Scala 。

python不是比java更直觀好理解麼,因為會了Python 還是要學習java的,你學會了java,再來學習python會很簡單的,一週的時間就可以學會python。

3) R語言也可以學習,但是不推薦,因為java用的人最多,大數據的第一個框架Hadoop,底層全是Java寫的。就算學會了R還是看不懂hadoop。

java在大數據中的作用是構成大數據的語言,大數據的第一個框架Hadoop以及其他大數據技術框架,底層語言全是Java寫的,所以推薦首選學習java

再給你們舉例說明下它們的分工和作用,java注重業務,大數據注重數據,前端是臉(頁面顯示),java是胳膊(業務),大數據是直男大腦,人工智能,深度學習是有情商的大腦。


程序員小樊


本人10年開發培訓經驗,期間經歷了Java Web,Android,H5,大數據,PHP等多個不同的方向的開發,也做過軟件培訓公司的金牌講師,很有興趣回答你這個問題。

大數據作為近幾年國家大力倡導的一個技術方向,所以催生了很多的崗位需求,那麼也有不少的朋友想學習大數據。

現在一般大數據開發的話,常用的技術體系是Java+大數據,個別也有python+大數據的,當然主流的肯定是Java+大數據。

所以你問學大數據需要什麼基礎,那一般都需要Java基礎了,因為公司裡很多大數據的平臺,都是用Java來開發的,就比如我之前所在的G7智能物流數據平臺,公司裡的底層數據就是大數據處理,然後web層接口交互,業務代碼都是java實現的。


可以聯繫我,java學習資料免費送!

我從事互聯網開發10年,主要的研究方向集中在Java web微服務架構領域,Android移動端研發,HTML5前端方向,我會陸續寫一些關於互聯網技術方面的文章,感興趣的朋友可以關注我,相信你一定會有所收穫。

如果有Java,Android,H5等開發方面的問題,或者是開發求職方面的問題,都可以在評論區留言,或者私信我。


我從事互聯網開發10年,主要的研究方向集中在Java web微服務架構領域,Android移動端研發,HTML5前端方向,我會陸續寫一些關於互聯網技術方面的文章,感興趣的朋友可以關注我,相信你一定會有所收穫。

如果有Java,Android,H5等開發方面的問題,或者是開發求職方面的問題,都可以在評論區留言,或者私信我。


一一哥Sun


第一階段:靜態網頁基礎(HTML+CSS)

1.難易程度:一顆星

2.技術知識點+階段項目任務+綜合能力

3.主要技術包括:html常用標籤、CSS常見佈局、樣式、定位等、靜態頁面的設計製作方式等

第二階段:JavaSE+JavaWeb

1.難易程度:兩顆星

2.技術知識點+階段項目任務+綜合能力

3.主要技術包括:java基礎語法、java面向對象(類、對象、封裝、繼承、多態、抽象類、接口、常見類、內部類、常見修飾符等)、異常、集合、文件、IO、MYSQL(基本SQL語句操作、多表查詢、子查詢、存儲過程、事務、分佈式事務)、JDBC、線程、反射、Socket編程、枚舉、泛型、設計模式

4.描述如下:

稱為Java基礎,由淺入深的技術點、真實商業項目模塊分析、多種存儲方式的設計與實現。該階段是前四個階段最最重要的階段,因為後面所有階段的都要基於此階段,也是學習大數據緊密度最高的階段。本階段將第一次接觸團隊開發、產出具有前後臺(第一階段技術+第二階段的技術綜合應用)的真實項目。

第三階段:前端框架

1.難易程序:兩星

2.技術知識點+階段項目任務+綜合能力

3.主要技術包括:Java、Jquery、註解反射一起使用,XML以及XML解析、解析dom4j、jxab、jdk8.0新特性、SVN、Maven、easyui

4.描述如下:

前兩個階段的基礎上化靜為動,可以實現讓我們網頁內容更加的豐富,當然如果從市場人員層面來說,有專業的前端設計人員,我們設計本階段的目標在於前端的技術可以更直觀的鍛鍊人的思維和設計能力。同時我們也將第二階段的高級特性融入到本階段。使學習者更上一層樓。

第四階段:企業級開發框架

1.難易程序:三顆星

3.主要技術包括:Hibernate、Spring、SpringMVC、log4j slf4j 整合、myBatis、struts2、Shiro、redis、流程引擎activity, 爬蟲技術nutch,lucene,webService CXF、Tomcat集群和熱備 、MySQL讀寫分離

第五階段: 初識大數據

1.難易程度:三顆星

2.技術知識點+階段項目任務+綜合能力

3.主要技術包括:大數據前篇(什麼是大數據,應用場景,如何學習大數據庫,虛擬機概念和安裝等)、Linux常見命令(文件管理、系統管理、磁盤管理)、Linux Shell編程(SHELL變量、循環控制、應用)、Hadoop入門(Hadoop組成、單機版環境、目錄結構、HDFS界面、MR界面、簡單的SHELL、java訪問hadoop)、HDFS(簡介、SHELL、IDEA開發工具使用、全分佈式集群搭建)、MapReduce應用(中間計算過程、Java操作MapReduce、程序運行、日誌監控)、Hadoop高級應用(YARN框架介紹、配置項與優化、CDH簡介、環境搭建)、擴展(MAP 端優化,COMBINER 使用方法見,TOP K,SQOOP導出,其它虛擬機VM的快照,權限管理命令,AWK 與 SED命令)

4.描述如下:

該階段設計是為了讓新人能夠對大數據有一個相對的大概念怎麼相對呢?在前置課程JAVA的學習過後能夠理解程序在單機的電腦上是如何運行的。現在,大數據呢?大數據是將程序運行在大規模機器的集群中處理。大數據當然是要處理數據,所以同樣,數據的存儲從單機存儲變為多機器大規模的集群存儲。(你問我什麼是集群?好,我有一大鍋飯,我一個人可以吃完,但是要很久,現在我叫大家一起吃。一個人的時候叫人,人多了呢? 是不是叫人群啊!)那麼大數據可以初略的分為: 大數據存儲和大數據處理所以在這個階段中呢,我們課程設計了大數據的標準:HADOOP吶,大數據的運行呢並不是在咋們經常使用WINDOWS 7或者W10上面,而是現在使用最廣泛的系統:LINUX。

第六階段:大數據數據庫

1.難易程度:四顆星

2.課時量(技術知識點+階段項目任務+綜合能力):88課時

3.主要技術包括:Hive入門(Hive簡介、Hive使用場景、環境搭建、架構說明、工作機制)、Hive Shell編程(建表、查詢語句、分區與分桶、索引管理和視圖)、Hive高級應用(DISTINCT實現、groupby、join、sql轉化原理、java編程、配置和優化)、hbase入門、Hbase SHELL編程(DDL、DML、Java操作建表、查詢、壓縮、過濾器)、細說Hbase模塊(REGION、HREGION SERVER、HMASTER、ZOOKEEPER簡介、ZOOKEEPER配置、Hbase與Zookeeper集成)、HBASE高級特性(讀寫流程、數據模型、模式設計讀寫熱點、優化與配置)

4.描述如下:

該階段設計是為了讓大家在理解大數據如何處理大規模的數據的同時。簡化咋們的編寫程序時間,同時提高讀取速度。

怎麼簡化呢?在第一階段中,如果需要進行復雜的業務關聯與數據挖掘,自行編寫MR程序是非常繁雜的。所以在這一階段中我們引入了HIVE,大數據中的數據倉庫。這裡有一個關鍵字,數據倉庫。我知道你要問我,所以我先說,數據倉庫呢用來做數據挖掘分析的,通常是一個超大的數據中心,存儲這些數據的呢,一般為ORACLE,DB2,等大型數據庫,這些數據庫通常用作實時的在線業務。總之,要基於數據倉庫分析數據呢速度是相對較慢的。但是方便在於只要熟悉SQL,學習起來相對簡單,而HIVE呢就是這樣一種工具,基於大數據的SQL查詢工具吶,這一階段呢還包括HBASE,它為大數據裡面的數據庫。納悶了,不是學了一種叫做HIVE的數據“倉庫”了麼?HIVE是基於MR的所以查詢起來相當慢,HBASE呢基於大數據可以做到實時的數據查詢。一個主分析,另一個主查詢。

第七階段:實時數據採集

1.難易程序:四顆星

2.技術知識點+階段項目任務+綜合能力

3.主要技術包括:Flume日誌採集,KAFKA入門(消息隊列、應用場景、集群搭建)、KAFKA詳解(分區、主題、接受者、發送者、與ZOOKEEPER集成、Shell開發、Shell調試)、KAFKA高級使用(java開發、主要配置、優化項目)、數據可視化(圖形與圖表介紹、CHARTS工具分類、柱狀圖與餅圖、3D圖與地圖)、STORM入門(設計思想、應用場景、處理過程、集群安裝)、STROM開發(STROM MVN開發、編寫STORM本地程序)、STORM進階(java開發、主要配置、優化項目)、KAFKA異步發送與批量發送時效,KAFKA全局消息有序,STORM多併發優化

4.描述如下:

前面的階段數據來源是基於已經存在的大規模數據集來做的,數據處理與分析過後的結果是存在一定延時的,通常處理的數據為前一天的數據。舉例場景:網站防盜鏈,客戶賬戶異常,實時徵信,遇到這些場景基於前一天的數據分析出來過後呢?是否太晚了。所以在本階段中我們引入了實時的數據採集與分析。主要包括了:FLUME實時數據採集,採集的來源支持非常廣泛,KAFKA數據數據接收與發送,STORM實時數據處理,數據處理秒級別。

第八階段:SPARK數據分析

1.難易程序:五顆星

2.技術知識點+階段項目任務+綜合能力

3.主要技術包括:SCALA入門(數據類型、運算符、控制語句、基礎函數)、SCALA進階(數據結構、類、對象、特質、模式匹配、正則表達式)、SCALA高級使用(高階函數、科裡函數、偏函數、尾迭代、自帶高階函數等)、SPARK入門(環境搭建、基礎結構、運行模式)、Spark數據集與編程模型、SPARK SQL、SPARK 進階(DATA FRAME、DATASET、SPARK STREAMING原理、SPARK STREAMING支持源、集成KAFKA與SOCKET、編程模型)、SPARK高級編程(Spark-GraphX、Spark-Mllib機器學習)、SPARK高級應用(系統架構、主要配置和性能優化、故障與階段恢復)、SPARK ML KMEANS算法,SCALA 隱式轉化高級特性

4.描述如下:

同樣先說前面的階段,主要是第一階段。HADOOP呢在分析速度上基於MR的大規模數據集相對來說還是挺慢的,包括機器學習,人工智能等。而且不適合做迭代計算。SPARK呢在分析上是作為MR的替代產品,怎麼替代呢? 先說他們的運行機制,HADOOP基於磁盤存儲分析,而SPARK基於內存分析。我這麼說你可能不懂,再形象一點,就像你要坐火車從北京到上海,MR就是綠皮火車,而SPARK是高鐵或者磁懸浮。而SPARK呢是基於SCALA語言開發的,當然對SCALA支持最好,所以課程中先學習SCALA開發語言。什麼?又要學另外一種開發語言?不不不!!!我只說一句話:SCALA是基於JAVA做的。從歷史數據的存儲,分析(HADOOP,HIVE,HBASE),到實時的數據存儲(FLUME,KAFKA),分析(STORM,SPARK),這些在真實的項目中都是相互依賴存在的。


閉著眼睛切土豆


1、瞭解大數據理論要

學習大數據你至少應該知道什麼是大數據,大數據一般運用在什麼領域。對大數據有一個大概的瞭解,你才能清楚自己對大數據究竟是否有興趣,如果對大數據一無所知就開始學習,有可能學著學著發現自己其實不喜歡,這樣浪費了時間精力,可能還浪費了金錢。所以如果想要學習大數據,需要先對大數據有一個大概的瞭解。

2、java

90%的大數據框架都是Java寫的。

需要了解java設計與編程思想;Java面向對象;Java高級;Web前端開發;HTML基礎;CSS3;JS腳本編程;JavaEE程序開發;JavaWeb後端開發。

3、 MySQL(必須需要掌握的)

4、Linux

大數據的框架安裝在Linux操作系統上

大數據開發零基礎需要學習什麼內容?(1)Java、大數據基礎

https://www.toutiao.com/i6684880291628057099/


分享到:


相關文章: