分佈式計算框架spark

Apache Spark是一個計算速度快,易用,支持複雜分析的大數據處理框架,大有取代mapreduce之勢。

分佈式計算框架spark


Python雖說在機器學習和人工智能方面有極好的應用,但是Python有一個大缺陷,不支持分佈式計算,但是不要緊,spark提供了極好的Python接口Pyspark,藉助他,Python在分佈式計算、流計算方面有了極大提高。

另外,spark的核心RDD彈性分佈式數據集和Python中pandas中的DataFrame十分相似,可以十分方便的相互轉化。所以說spark讓Python有了分佈式處理大數據集的能力。


分享到:


相關文章: