117道有關大數據面試題的解析,希望對你有所幫助

value指定一個可執行程序,通常是一個shell腳本,該腳本接受一個參數(ip),輸出一個值(機架位置)。

可以將ip,主機名,機架位置配置在一個配置文件中。然後腳本讀取該配置文件,去解析傳入ip對應的機架位置,並輸出即可。當然也可以用java類實現。

hdfs存儲策略是本地存儲一份,同機架內其他節點存儲一份,不同機架某一節點存儲一份,當執行計算時,發現本地數據損壞,可以從同一機架相鄰節點拿到數據,速度肯定比跨機架來得快。同時,如果整個機架的網絡出現異常,也能保證能從其他機架拿到數據。 要實現這個存儲策略,就需要機架感知。

十九 hdfs?的數據壓縮算法

http://www.tuicool.com/articles/eIfAJbM

壓縮格式:gzip,? bzip2,? lzo

壓縮算法:deflate[d?'fle?t],? bzip2,lzo

從壓縮效果來講:bzip2 > gzip > lzo

從壓縮速度來講:lzo > gzip > bizp2

另外bizp2,lzo都支持文件分割,gzip不支持。

所有壓縮算法都是時間和空間的權衡,在選擇哪種壓縮格式時,我們應該根據自身的業務需要來選擇。

二十 hadoop?的調度器有哪些,工作原理?

http://www.mamicode.com/info-detail-1097801.html

http://www.cnblogs.com/xing901022/p/6174178.html

https://my.oschina.net/ssrs2202/blog/494729?p={{currentPage+1}}

http://www.tuicool.com/articles/M3ayEj

http://lxw1234.com/archives/2015/10/536.htm

FIFO調度器,只有一個隊列,按先進先出的原則為job分配資源。

Capacity調度器,可以設置多個隊列,併為每個隊列設置資源佔比,比如有三個隊列,資源佔比可以設置為30%,30%,40%。隊列之間支持共享資源,當某個隊列的資源不用時,可以共享給其他有需要的隊列。當集群繁忙時,一旦有些任務完成釋放資源形成空閒資源,優先分配給資源利用率低的隊列,最終達到按“隊列容量”分配資源的效果。隊列裡面的Job按FIFO規則選擇優先順序。

當然,可以設置隊列的最大資源使用量,這樣可以保證每個隊列都不會佔用整體集群的資源。

Fair調度器,可以設置多個隊列,併為每個隊列設置最小份額,權重等指標,比如整個集群有100G內存,有三個隊列,最小份額分別設置為40G,30G,20G,權重分別設置為2,3,4(按照誰願意分享更多,誰獲得更多的原則,即最小份額跟權重成反比關係)。隊列之間支持資源共享,當某個隊列的資源不用時,可以共享給其他有需要的隊列。當集群繁忙時,一旦有些任務完成釋放資源形成空閒資源,優先分配給“飢餓程度”(已使用資源量跟最小份額之間的差距程度)較高的隊列,慢慢地,大家就會進入都不“飢餓”的狀態,這時按已使用資源量/權重 誰小分配給誰,最終達到按最小份額和權重“公平”分配資源的效果。隊列裡面的Job可按FIFO或Fair(Fair判斷指標有:job已使用資源量與實際需要資源量的差距,提交時間)選擇優先順序。

還有Capacity和Fair調度器都支持資源搶佔。

二十一 hive?中的壓縮格式?RCFile、TextFile、SequenceFile?各有什麼區別?

http://blog.csdn.net/yfkiss/article/details/7787742

TextFile:Hive默認格式,不作壓縮,磁盤及網絡開銷較大。可以結合Gzip, Bzip2使用,但使用這種方式,hive不會對數據進行切分,從而無法對數據進行並行操作。

SequenceFile:? SequenceFile 是Hadoop API提供支持的一種二進制文件,具有使用方便,可分割,可壓縮的特點,支持三種壓縮選擇:NONE, RECORD, BLOCK。RECORD壓縮率低,一般建議使用BLOCK壓縮。

RCFILE:? RCFILE是一種行列存儲相結合的的存儲方式。首先,將數據按行分塊,保證同一個record在一個塊上,避免讀一個記錄需要讀取多個block。其次,塊數據列式存儲,有利於數據壓縮。

總結:相比TEXTFILE和SEQUENCEFILE,RCFILE由於列式存儲方式,數據加載時性能消耗較大,但是具有較好的壓縮比和查詢響應。數據倉庫的特點是一次寫入,多次讀取,因此,整體來看,RCFILE相比兩它兩種格式,具有較明顯的優勢。

二十二 Hive中的內部表,外部表,分區表、桶表有什麼區別和作用?

內部表:數據存儲在Hive的數據倉庫目錄下,刪除表時,除了刪除元數據,還會刪除實際表文件。

外部表:數據並不存儲在Hive的數據倉庫目錄下,刪除表時,只是刪除元數據,並不刪除實際表文件。

分區表:跟RDMS的分區概念類似,將一張表的數據按照分區規則分成多個目錄存儲。這樣可以通過指定分區來提高查詢速度。

桶表:在表或分區的基礎上,按某一列的值將記錄進行分桶存放,即分文件存放,也就是將大表變成小表的意思,這樣,涉及到Join操作時,可以在桶與桶間關聯即可,大大減小Join的數據量,提高執行效率。

二十三 kafka的message包括哪些信息

一個Kafka的Message由一個固定長度的header和一個變長的消息體body組成header部分由一個字節的magic(文件格式)和四個字節的CRC32(用於判斷body消息體是否正常)構成。當magic的值為1的時候,會在magic和crc32之間多一個字節的數據:attributes(保存一些相關屬性,比如是否壓縮、壓縮格式等等);如果magic的值為0,那麼不存在attributes屬性

body是由N個字節構成的一個消息體,包含了具體的key/value消息

二十四 怎麼查看kafka的offset

0.9版本以上,可以用最新的Consumer client 客戶端,有consumer.seekToEnd() / consumer.position() 可以用於得到當前最新的offset:

二十五 hadoop的shuffle過程

Map端的shuffle

  Map端會處理輸入數據併產生中間結果,這個中間結果會寫到本地磁盤,而不是HDFS。每個Map的輸出會先寫到內存緩衝區中,當寫入的數據達到設定的閾值時,系統將會啟動一個線程將緩衝區的數據寫到磁盤,這個過程叫做spill。

  在spill寫入之前,會先進行二次排序,首先根據數據所屬的partition進行排序,然後每個partition中的數據再按key來排序。partition的目是將記錄劃分到不同的Reducer上去,以期望能夠達到負載均衡,以後的Reducer就會根據partition來讀取自己對應的數據。接著運行combiner(如果設置了的話),combiner的本質也是一個Reducer,其目的是對將要寫入到磁盤上的文件先進行一次處理,這樣,寫入到磁盤的數據量就會減少。最後將數據寫到本地磁盤產生spill文件(spill文件保存在{mapred.local.dir}指定的目錄中,Map任務結束後就會被刪除)。

最後,每個Map任務可能產生多個spill文件,在每個Map任務完成前,會通過多路歸併算法將這些spill文件歸併成一個文件。至此,Map的shuffle過程就結束了。

Reduce端的shuffle

  Reduce端的shuffle主要包括三個階段,copy、sort(merge)和reduce。

  首先要將Map端產生的輸出文件拷貝到Reduce端,但每個Reducer如何知道自己應該處理哪些數據呢?因為Map端進行partition的時候,實際上就相當於指定了每個Reducer要處理的數據(partition就對應了Reducer),所以Reducer在拷貝數據的時候只需拷貝與自己對應的partition中的數據即可。每個Reducer會處理一個或者多個partition,但需要先將自己對應的partition中的數據從每個Map的輸出結果中拷貝過來。

  接下來就是sort階段,也成為merge階段,因為這個階段的主要工作是執行了歸併排序。從Map端拷貝到Reduce端的數據都是有序的,所以很適合歸併排序。最終在Reduce端生成一個較大的文件作為Reduce的輸入。

最後就是Reduce過程了,在這個過程中產生了最終的輸出結果,並將其寫到HDFS上。

二十六 spark集群運算的模式

Spark 有很多種模式,最簡單就是單機本地模式,還有單機偽分佈式模式,複雜的則運行在集群中,目前能很好的運行在 Yarn和 Mesos 中,當然 Spark 還有自帶的 Standalone 模式,對於大多數情況 Standalone 模式就足夠了,如果企業已經有 Yarn 或者 Mesos 環境,也是很方便部署的。

standalone(集群模式):典型的Mater/slave模式,不過也能看出Master是有單點故障的;Spark支持ZooKeeper來實現 HA

on yarn(集群模式): 運行在 yarn 資源管理器框架之上,由 yarn 負責資源管理,Spark 負責任務調度和計算

on mesos(集群模式): 運行在 mesos 資源管理器框架之上,由 mesos 負責資源管理,Spark 負責任務調度和計算

on cloud(集群模式):比如 AWS 的 EC2,使用這個模式能很方便的訪問 Amazon的 S3;Spark 支持多種分佈式存儲系統:HDFS 和 S3

二十七 HDFS讀寫數據的過程

讀:

1、跟namenode通信查詢元數據,找到文件塊所在的datanode服務器

2、挑選一臺datanode(就近原則,然後隨機)服務器,請求建立socket流

3、datanode開始發送數據(從磁盤裡面讀取數據放入流,以packet為單位來做校驗)

4、客戶端以packet為單位接收,現在本地緩存,然後寫入目標文件

寫:

1、根namenode通信請求上傳文件,namenode檢查目標文件是否已存在,父目錄是否存在

2、namenode返回是否可以上傳

3、client請求第一個 block該傳輸到哪些datanode服務器上

4、namenode返回3個datanode服務器ABC

5、client請求3臺dn中的一臺A上傳數據(本質上是一個RPC調用,建立pipeline),A收到請求會繼續調用B,然後B調用C,將真個pipeline建立完成,逐級返回客戶端

6、client開始往A上傳第一個block(先從磁盤讀取數據放到一個本地內存緩存),以packet為單位,A收到一個packet就會傳給B,B傳給C;A每傳一個packet會放入一個應答隊列等待應答

7、當一個block傳輸完成之後,client再次請求namenode上傳第二個block的服務器。

二十八 RDD中reduceBykey與groupByKey哪個性能好,為什麼

reduceByKey:reduceByKey會在結果發送至reducer之前會對每個mapper在本地進行merge,有點類似於在MapReduce中的combiner。這樣做的好處在於,在map端進行一次reduce之後,數據量會大幅度減小,從而減小傳輸,保證reduce端能夠更快的進行結果計算。

groupByKey:groupByKey會對每一個RDD中的value值進行聚合形成一個序列(Iterator),此操作發生在reduce端,所以勢必會將所有的數據通過網絡進行傳輸,造成不必要的浪費。同時如果數據量十分大,可能還會造成OutOfMemoryError。

通過以上對比可以發現在進行大量數據的reduce操作時候建議使用reduceByKey。不僅可以提高速度,還是可以防止使用groupByKey造成的內存溢出問題。

二十九 spark sql怎麼取數據的差集

好像不支持

spark2.0的瞭解

更簡單:ANSI SQL與更合理的API

速度更快:用Spark作為編譯器

更智能:Structured Streaming

三十 rdd 怎麼分區寬依賴和窄依賴

寬依賴:父RDD的分區被子RDD的多個分區使用 例如 groupByKey、reduceByKey、sortByKey等操作會產生寬依賴,會產生shuffle

窄依賴:父RDD的每個分區都只被子RDD的一個分區使用 例如map、filter、union等操作會產生窄依賴

三十一spark streaming 讀取kafka數據的兩種方式

這兩種方式分別是:

Receiver-base

使用Kafka的高層次Consumer API來實現。receiver從Kafka中獲取的數據都存儲在Spark Executor的內存中,然後Spark Streaming啟動的job會去處理那些數據。然而,在默認的配置下,這種方式可能會因為底層的失敗而丟失數據。如果要啟用高可靠機制,讓數據零丟失,就必須啟用Spark Streaming的預寫日誌機制(Write Ahead Log,WAL)。該機制會同步地將接收到的Kafka數據寫入分佈式文件系統(比如HDFS)上的預寫日誌中。所以,即使底層節點出現了失敗,也可以使用預寫日誌中的數據進行恢復。

Direct

Spark1.3中引入Direct方式,用來替代掉使用Receiver接收數據,這種方式會週期性地查詢Kafka,獲得每個topic+partition的最新的offset,從而定義每個batch的offset的範圍。當處理數據的job啟動時,就會使用Kafka的簡單consumer api來獲取Kafka指定offset範圍的數據。

三十二 kafka的數據存在內存還是磁盤

Kafka最核心的思想是使用磁盤,而不是使用內存,可能所有人都會認為,內存的速度一定比磁盤快,我也不例外。在看了Kafka的設計思想,查閱了相應資料再加上自己的測試後,發現磁盤的順序讀寫速度和內存持平。

而且Linux對於磁盤的讀寫優化也比較多,包括read-ahead和write-behind,磁盤緩存等。如果在內存做這些操作的時候,一個是JAVA對象的內存開銷很大,另一個是隨著堆內存數據的增多,JAVA的GC時間會變得很長,使用磁盤操作有以下幾個好處:

磁盤緩存由Linux系統維護,減少了程序員的不少工作。

磁盤順序讀寫速度超過內存隨機讀寫。

JVM的GC效率低,內存佔用大。使用磁盤可以避免這一問題。

系統冷啟動後,磁盤緩存依然可用。

三十三 怎麼解決kafka的數據丟失

producer端:

宏觀上看保證數據的可靠安全性,肯定是依據分區數做好數據備份,設立副本數。

broker端:

topic設置多分區,分區自適應所在機器,為了讓各分區均勻分佈在所在的broker中,分區數要大於broker數。

分區是kafka進行並行讀寫的單位,是提升kafka速度的關鍵。

Consumer端

consumer端丟失消息的情形比較簡單:如果在消息處理完成前就提交了offset,那麼就有可能造成數據的丟失。由於Kafka consumer默認是自動提交位移的,所以在後臺提交位移前一定要保證消息被正常處理了,因此不建議採用很重的處理邏輯,如果處理耗時很長,則建議把邏輯放到另一個線程中去做。為了避免數據丟失,現給出兩點建議:

enable.auto.commit=false 關閉自動提交位移

在消息被完整處理之後再手動提交位移

三十四 給定a、b兩個文件,各存放50億個url,每個url各佔64字節,內存限制是4G,讓你找出a、b文件共同的url?

  假如每個url大小為10bytes,那麼可以估計每個文件的大小為50G×64=320G,遠遠大於內存限制的4G,所以不可能將其完全加載到內存中處理,可以採用分治的思想來解決。

  Step1:遍歷文件a,對每個url求取hash(url)%1000,然後根據所取得的值將url分別存儲到1000個小文件(記為a0,a1,...,a999,每個小文件約300M);

  Step2:遍歷文件b,採取和a相同的方式將url分別存儲到1000個小文件(記為b0,b1,...,b999);

  巧妙之處:這樣處理後,所有可能相同的url都被保存在對應的小文件(a0vsb0,a1vsb1,...,a999vsb999)中,不對應的小文件不可能有相同的url。然後我們只要求出這個1000對小文件中相同的url即可。

  Step3:求每對小文件ai和bi中相同的url時,可以把ai的url存儲到hash_set/hash_map中。然後遍歷bi的每個url,看其是否在剛才構建的hash_set中,如果是,那麼就是共同的url,存到文件裡面就可以了。

  草圖如下(左邊分解A,右邊分解B,中間求解相同url):

三十五 .有一個1G大小的一個文件,裡面每一行是一個詞,詞的大小不超過16字節,內存限制大小是1M,要求返回頻數最高的100個詞。

  Step1:順序讀文件中,對於每個詞x,取hash(x)%5000,然後按照該值存到5000個小文件(記為f0,f1,...,f4999)中,這樣每個文件大概是200k左右,如果其中的有的文件超過了1M大小,還可以按照類似的方法繼續往下分,直到分解得到的小文件的大小都不超過1M;

  Step2:對每個小文件,統計每個文件中出現的詞以及相應的頻率(可以採用trie樹/hash_map等),並取出出現頻率最大的100個詞(可以用含100個結點的最小堆),並把100詞及相應的頻率存入文件,這樣又得到了5000個文件;

  Step3:把這5000個文件進行歸併(類似與歸併排序);

  草圖如下(分割大問題,求解小問題,歸併):

三十六 .現有海量日誌數據保存在一個超級大的文件中,該文件無法直接讀入內存,要求從中提取某天出訪問百度次數最多的那個IP。

  Step1:從這一天的日誌數據中把訪問百度的IP取出來,逐個寫入到一個大文件中;

  Step2:注意到IP是32位的,最多有2^32個IP。同樣可以採用映射的方法,比如模1000,把整個大文件映射為1000個小文件;

  Step3:找出每個小文中出現頻率最大的IP(可以採用hash_map進行頻率統計,然後再找出頻率最大的幾個)及相應的頻率;

  Step4:在這1000個最大的IP中,找出那個頻率最大的IP,即為所求。

  草圖如下:

三十七 LVS和HAProxy相比,它的缺點是什麼?

  之前,的確是用LVS進行過MySQL集群的負載均衡,對HAProxy也有過了解,但是將這兩者放在眼前進行比較,還真沒試著瞭解過。面試中出現了這麼一題,面試官給予的答案是LVS的配置相當繁瑣,後來查找了相關資料,對這兩種負載均衡方案有了更進一步的瞭解。LVS的負載均衡性能之強悍已經達到硬件負載均衡的F5的百分之60了,而HAproxy的負載均衡和Nginx負載均衡,均為硬件負載均衡的百分之十左右。由此可見,配置複雜,相應的效果也是顯而易見的。在查找資料的過程中,試著將LVS的10種調度算法瞭解了一下,看似數量挺多的10種算法其實在不同的算法之間,有些只是有著一些細微的差別。在這10種調度算法中,靜態調度算法有四種,動態調度算法有6種。

靜態調度算法

  ①RR輪詢調度算法

  這種調度算法不考慮服務器的狀態,所以是無狀態的,同時也不考慮每個服務器的性能,比如我有1-N臺服務器,來N個請求了,第一個請求給第一臺,第二個請求給第二臺,,,第N個請求給第N臺服務器,就醬紫。

  ②加權輪詢

  這種調度算法是考慮到服務器的性能的,你可以根據不同服務器的性能,加上權重進行分配相應的請求。

  ③基於目的地址的hash散列

  這種調度算法和基於源地址的hash散列異曲同工,都是為了維持一個session,基於目的地址的hash散列,將記住同一請求的目的地址,將這類請求發往同一臺目的服務器。簡而言之,就是發往這個目的地址的請求都發往同一臺服務器。而基於源地址的hash散列,就是來自同一源地址的請求都發往同一臺服務器。

  ④基於源地址的hash散列

  上述已講,不再贅述。

動態調度

  ①最少連接調度算法

  這種調度算法會記錄響應請求的服務器上所建立的連接數,每接收到一個請求會相應的將該服務器的所建立連接數加1,同時將新來的請求分配到當前連接數最少的那臺機器上。

  ②加權最少連接調度算法

  這種調度算法在最少連接調度算法的基礎上考慮到服務器的性能。當然,做這樣子的考慮是有其合理性存在的,如果是同一規格的服務器,那麼建立的連接數越多,必然越增加其負載,那麼僅僅根據最少連接數的調度算法,必然可以實現合理的負載均衡。但如果,服務器的性能不一樣呢?比如我有一臺服務器,最多隻能處理10個連接,現在建立了3個,還有一臺服務器最多能處理1000條連接,現在建立了5個,如果單純地按照上述的最少連接調度算法,妥妥的前者嘛,但前者已經建立了百分之三十的連接了,而後者連百分之一的連接還沒有建立,試問,這合理嗎?顯然不合理。所以加上權重,才算合理。相應的公式也相當簡單:active*256/weight。

  ③最短期望調度算法

  這種算法,是避免出現上述加權最少連接調度算法中的一種特殊情況,導致即使加上權重,調度器也無差別對待了,舉個栗子:

  假設有三臺服務器ABC,其當前所建立的連接數相應地為1,2,3,而權重也是1,2,3。那麼如果按照加權最少連接調度算法的話,算出來是這樣子的:

  A:1256/1=256

  B:2256/2=256

  C:3256/3=256

  我們會發現,即便加上權重,A、B、C,經過計算還是一樣的,這樣子調度器會無差別的在A、B、C中任選一臺,將請求發過去。

  而最短期望將active256/weight的算法改進為(active+1)256/weight

  那麼還是之前的例子:

  A:(1+1)256/1=2/1256=2256

  B:(2+1)256/2=3/2256=1.5256

  C:(3+1)256、3=4/3256≈1.3256

  顯然C

  ④永不排隊算法

  將請求發給當前連接數為0的服務器上。

  ⑤基於局部的最少連接調度算法

  這種調度算法應用於Cache系統,維持一個請求到一臺服務器的映射,其實我們仔細想想哈,之前做的一系列最少連接相關的調度算法。考慮到的是服務器的狀態與性能,但是一次請求並不是單向的,就像有一個從未合作過的大牛,他很閒,你讓他去解決一個之前碰到過的一個問題,未必有找一個之前已經跟你合作過哪怕現在不怎麼閒的臭皮匠效果好哦~,所以基於局部的最少連接調度算法,維持的這種映射的作用是,如果來了一個請求,相對應的映射的那臺服務器,沒有超載,ok交給老夥伴完事吧,俺放心,如果那臺服務器不存在,或者是超載的狀態且有其他服務器工作在一半的負載狀態,則按最少連接調度算法在集群其餘的服務器中找一臺將請求分配給它。

  ⑥基於複製的局部最少連接調度算法

這種調度算法同樣應用於cache系統,但它維持的不是到一臺服務器的映射而是到一組服務器的映射,當有新的請求到來,根據最小連接原則,從該映射的服務器組中選擇一臺服務器,如果它沒有超載則交給它去處理這個請求,如果發現它超載,則從服務器組外的集群中,按最少連接原則拉一臺機器加入服務器組,並且在服務器組有一段時間未修改後,將最忙的那臺服務器從服務器組中剔除。

三十八 .Sqoop用起來感覺怎樣?

  說實話,Sqoop在導入數據的速度上確實十分感人,通過進一步瞭解,發現Sqoop1和Sqoop2在架構上還是有明顯不同的,無論是從數據類型上還是從安全權限,密碼暴露方面,Sqoop2都有了明顯的改進,同時同一些其他的異構數據同步工具比較,如淘寶的DataX或者Kettle相比,Sqoop無論是從導入數據的效率上還是從支持插件的豐富程度上,Sqoop還是相當不錯滴!!

三十九 ZooKeeper的角色以及相應的Zookepper工作原理?

果然,人的記憶力是有衰減曲線的,當面試官拋出這個問題後,前者角色,我只答出了兩種(leader和follower),後者原理壓根就模糊至忘記了。所以惡補了一下,涉及到Zookeeper的角色大概有如下四種:leader、learner(follower)、observer、client。其中leader主要用來決策和調度,follower和observer的區別僅僅在於後者沒有寫的職能,但都有將client請求提交給leader的職能,而observer的出現是為了應對當投票壓力過大這種情形的,client就是用來發起請求的。而Zookeeper所用的分佈式一致性算法包括leader的選舉其實和-原始部落的獲得神器為酋長,或者得玉璽者為皇帝類似,誰id最小,誰為leader,會根據你所配置的相應的文件在相應的節點機下生成id,然後相應的節點會通過getchildren()這個函數獲取之前設置的節點下生成的id,誰最小,誰是leader。並且如果萬一這個leader掛掉了或者墮落了,則由次小的頂上。而且在配置相應的zookeeper文件的時候回有類似於如下字樣的信息:Server.x=AAAA:BBBB:CCCC。其中的x即為你的節點號哈,AAAA對應你所部屬zookeeper所在的ip地址,BBBB為接收client請求的端口,CCCC為重新選舉leader端口。

四十 .HBase的Insert與Update的區別?

  這個題目是就著最近的一次項目問的,當時實現的與hbase交互的三個方法分別為insert、delete、update。由於那個項目是對接的一個項目,對接的小夥伴和我協商了下,不將update合併為insert,如果合併的話,按那個項目本身,其實通過insert執行overwrite相當於間接地Update,本質上,或者說在展現上是沒什麼區別的包括所調用的put。但那僅僅是就著那個項目的程序而言,如果基於HBaseshell層面。將同一rowkey的數據插入HBase,其實雖然展現一條,但是相應的timestamp是不一樣的,而且最大的版本數可以通過配置文件進行相應地設置。

四十一 請簡述大數據的結果展現方式。

  1)報表形式

  基於數據挖掘得出的數據報表,包括數據表格、矩陣、圖形和自定義格式的報表等,使用方便、設計靈活。

  2)圖形化展現

  提供曲線、餅圖、堆積圖、儀表盤、魚骨分析圖等圖形形式宏觀展現模型數據的分佈情況,從而便於進行決策。

  3)KPI展現

  提供表格式績效一覽表並可自定義績效查看方式,如數據表格或走勢圖,企業管理者可根據可度量的目標快速評估進度。

  4)查詢展現

  按數據查詢條件和查詢內容,以數據表格來彙總查詢結果,提供明細查詢功能,並可在查詢的數據表格基礎上進行上鑽、下鑽、旋轉等操作。

四十二 例舉身邊的大數據。

  i.QQ,微博等社交軟件產生的數據

  ii.天貓,京東等電子商務產生的數據

  iii.互聯網上的各種數據

四十三 簡述大數據的數據管理方式。

 答:對於圖像、視頻、URL、地理位置等類型多樣的數據,難以用傳統的結構化方式描述,因此需要使用由多維表組成的面向列存儲的數據管理系統來組織和管理數據。也就是說,將數據按行排序,按列存儲,將相同字段的數據作為一個列族來聚合存儲。不同的列族對應數據的不同屬性,這些屬性可以根據需求動態增加,通過這樣的分佈式實時列式數據庫對數據統一進行結構化存儲和管理,避免了傳統數據存儲方式下的關聯查詢。

四十四 什麼是大數據?

答:大數據是指無法在容許的時間內用常規軟件工具對其內容進行抓取、管理和處理的數據。

四十五 海量日誌數據,提取出某日訪問百度次數最多的那個IP。

首先是這一天,並且是訪問百度的日誌中的IP取出來,逐個寫入到一個大文件中。注意到IP是32位的,最多有個2^32個IP。同樣可以採用映射的方法,比如模1000,把整個大文件映射為1000個小文件,再找出每個小文中出現頻率最大的IP(可以採用hash_map進行頻率統計,然後再找出頻率最大的幾個)及相應的頻率。然後再在這1000個最大的IP中,找出那個頻率最大的IP,即為所求。

  或者如下闡述(雪域之鷹):

  算法思想:分而治之+Hash

  1)IP地址最多有2^32=4G種取值情況,所以不能完全加載到內存中處理;

  2)可以考慮採用“分而治之”的思想,按照IP地址的Hash(IP)%1024值,把海量IP日誌分別存儲到1024個小文件中。這樣,每個小文件最多包含4MB個IP地址;

  3)對於每一個小文件,可以構建一個IP為key,出現次數為value的Hashmap,同時記錄當前出現次數最多的那個IP地址;

  4)可以得到1024個小文件中的出現次數最多的IP,再依據常規的排序算法得到總體上出現次數最多的IP;

四十六 .搜索引擎會通過日誌文件把用戶每次檢索使用的所有檢索串都記錄下來,每個查詢串的長度為1-255字節。

假設目前有一千萬個記錄(這些查詢串的重複度比較高,雖然總數是1千萬,但如果除去重複後,不超過3百萬個。一個查詢串的重複度越高,說明查詢它的用戶越多,也就是越熱門。),請你統計最熱門的10個查詢串,要求使用的內存不能超過1G。

  典型的TopK算法,還是在這篇文章裡頭有所闡述,詳情請參見:十一、從頭到尾徹底解析Hash表算法。

  文中,給出的最終算法是:

  第一步、先對這批海量數據預處理,在O(N)的時間內用Hash表完成統計(之前寫成了排序,特此訂正。July、2011.04.27);

  第二步、藉助堆這個數據結構,找出TopK,時間複雜度為N‘logK。

  即,藉助堆結構,我們可以在log量級的時間內查找和調整/移動。因此,維護一個K(該題目中是10)大小的小根堆,然後遍歷300萬的Query,分別和根元素進行對比所以,我們最終的時間複雜度是:O(N)+N’*O(logK),(N為1000萬,N’為300萬)。ok,更多,詳情,請參考原文。

  或者:採用trie樹,關鍵字域存該查詢串出現的次數,沒有出現為0。最後用10個元素的最小推來對出現頻率進行排序。

四十七 有一個1G大小的一個文件,裡面每一行是一個詞,詞的大小不超過16字節,內存限制大小是1M。返回頻數最高的100個詞。

  方案:順序讀文件中,對於每個詞x,取hash(x)%5000,然後按照該值存到5000個小文件(記為x0,x1,…x4999)中。這樣每個文件大概是200k左右。

  如果其中的有的文件超過了1M大小,還可以按照類似的方法繼續往下分,直到分解得到的小文件的大小都不超過1M。

  對每個小文件,統計每個文件中出現的詞以及相應的頻率(可以採用trie樹/hash_map等),並取出出現頻率最大的100個詞(可以用含100個結點的最小堆),並把100個詞及相應的頻率存入文件,這樣又得到了5000個文件。下一步就是把這5000個文件進行歸併(類似與歸併排序)的過程了。

四十八 .有10個文件,每個文件1G,每個文件的每一行存放的都是用戶的query,每個文件的query都可能重複。要求你按照query的頻度排序。

還是典型的TOPK算法,解決方案如下:

方案1:

  順序讀取10個文件,按照hash(query)%10的結果將query寫入到另外10個文件(記為)中。這樣新生成的文件每個的大小大約也1G(假設hash函數是隨機的)。

  找一臺內存在2G左右的機器,依次對用hash_map(query,query_count)來統計每個query出現的次數。利用快速/堆/歸併排序按照出現次數進行排序。將排序好的query和對應的query_cout輸出到文件中。這樣得到了10個排好序的文件(記為)。

  對這10個文件進行歸併排序(內排序與外排序相結合)。

  方案2:

  一般query的總量是有限的,只是重複的次數比較多而已,可能對於所有的query,一次性就可以加入到內存了。這樣,我們就可以採用trie樹/hash_map等直接來統計每個query出現的次數,然後按出現次數做快速/堆/歸併排序就可以了。

  方案3:

  與方案1類似,但在做完hash,分成多個文件後,可以交給多個文件來處理,採用分佈式的架構來處理(比如MapReduce),最後再進行合併。

四十九 .給定a、b兩個文件,各存放50億個url,每個url各佔64字節,內存限制是4G,讓你找出a、b文件共同的url?

  方案1:可以估計每個文件安的大小為5G×64=320G,遠遠大於內存限制的4G。所以不可能將其完全加載到內存中處理。考慮採取分而治之的方法。

  遍歷文件a,對每個url求取hash(url)%1000,然後根據所取得的值將url分別存儲到1000個小文件(記為a0,a1,…,a999)中。這樣每個小文件的大約為300M。

  遍歷文件b,採取和a相同的方式將url分別存儲到1000小文件(記為b0,b1,…,b999)。這樣處理後,所有可能相同的url都在對應的小文件(a0vsb0,a1vsb1,…,a999vsb999)中,不對應的小文件不可能有相同的url。然後我們只要求出1000對小文件中相同的url即可。

  求每對小文件中相同的url時,可以把其中一個小文件的url存儲到hash_set中。然後遍歷另一個小文件的每個url,看其是否在剛才構建的hash_set中,如果是,那麼就是共同的url,存到文件裡面就可以了。

  方案2:如果允許有一定的錯誤率,可以使用Bloomfilter,4G內存大概可以表示340億bit。將其中一個文件中的url使用Bloomfilter映射為這340億bit,然後挨個讀取另外一個文件的url,檢查是否與Bloomfilter,如果是,那麼該url應該是共同的url(注意會有一定的錯誤率)。

  Bloomfilter日後會在本BLOG內詳細闡述。

 五十 .在2.5億個整數中找出不重複的整數,注,內存不足以容納這2.5億個整數。

  方案1:採用2-Bitmap(每個數分配2bit,00表示不存在,01表示出現一次,10表示多次,11無意義)進行,共需內存2^32*2bit=1GB內存,還可以接受。然後掃描這2.5億個整數,查看Bitmap中相對應位,如果是00變01,01變10,10保持不變。所描完事後,查看bitmap,把對應位是01的整數輸出即可。

  方案2:也可採用與第1題類似的方法,進行劃分小文件的方法。然後在小文件中找出不重複的整數,並排序。然後再進行歸併,注意去除重複的元素。

五十一 .騰訊面試題:給40億個不重複的unsignedint的整數,沒排過序的,然後再給一個數,如何快速判斷這個數是否在那40億個數當中?

  與上第6題類似,我的第一反應時快速排序+二分查找。以下是其它更好的方法:

  方案1:oo,申請512M的內存,一個bit位代表一個unsignedint值。讀入40億個數,設置相應的bit位,讀入要查詢的數,查看相應bit位是否為1,為1表示存在,為0表示不存在。

  dizengrong:

  方案2:這個問題在《編程珠璣》裡有很好的描述,大家可以參考下面的思路,探討一下:

  又因為2^32為40億多,所以給定一個數可能在,也可能不在其中;

  這裡我們把40億個數中的每一個用32位的二進制來表示

  假設這40億個數開始放在一個文件中。

  然後將這40億個數分成兩類:

  1.最高位為0

  2.最高位為1

  並將這兩類分別寫入到兩個文件中,其中一個文件中數的個數<=20億,而另一個>=20億(這相當於折半了);

  與要查找的數的最高位比較並接著進入相應的文件再查找

  再然後把這個文件為又分成兩類:

  1.次最高位為0

  2.次最高位為1

  並將這兩類分別寫入到兩個文件中,其中一個文件中數的個數<=10億,而另一個>=10億(這相當於折半了);

  與要查找的數的次最高位比較並接著進入相應的文件再查找。

  …….

  以此類推,就可以找到了,而且時間複雜度為O(logn),方案2完。

  附:這裡,再簡單介紹下,位圖方法:

  使用位圖法判斷整形數組是否存在重複

  判斷集合中存在重複是常見編程任務之一,當集合中數據量比較大時我們通常希望少進行幾次掃描,這時雙重循環法就不可取了。

  位圖法比較適合於這種情況,它的做法是按照集合中最大元素max創建一個長度為max+1的新數組,然後再次掃描原數組,遇到幾就給新數組的第幾位置上1,如遇到5就給新數組的第六個元素置1,這樣下次再遇到5想置位時發現新數組的第六個元素已經是1了,這說明這次的數據肯定和以前的數據存在著重複。這種給新數組初始化時置零其後置一的做法類似於位圖的處理方法故稱位圖法。它的運算次數最壞的情況為2N。如果已知數組的最大值即能事先給新數組定長的話效率還能提高一倍。

五十二.怎麼在海量數據中找出重複次數最多的一個?

  方案1:先做hash,然後求模映射為小文件,求出每個小文件中重複次數最多的一個,並記錄重複次數。然後找出上一步求出的數據中重複次數最多的一個就是所求(具體參考前面的題)。

五十三 上千萬或上億數據(有重複),統計其中出現次數最多的錢N個數據。

  方案1:上千萬或上億的數據,現在的機器的內存應該能存下。所以考慮採用hash_map/搜索二叉樹/紅黑樹等來進行統計次數。然後就是取出前N個出現次數最多的數據了,可以用第2題提到的堆機制完成。

五十四 一個文本文件,大約有一萬行,每行一個詞,要求統計出其中最頻繁出現的前10個詞,請給出思想,給出時間複雜度分析。

  方案1:這題是考慮時間效率。用trie樹統計每個詞出現的次數,時間複雜度是O(n*le)(le表示單詞的平準長度)。然後是找出出現最頻繁的前10個詞,可以用堆來實現,前面的題中已經講到了,時間複雜度是O(n*lg10)。所以總的時間複雜度,是O(n*le)與O(n*lg10)中較大的哪一個。

五十五100w個數中找出最大的100個數。

  方案1:在前面的題中,我們已經提到了,用一個含100個元素的最小堆完成。複雜度為O(100w*lg100)。

  方案2:採用快速排序的思想,每次分割之後只考慮比軸大的一部分,知道比軸大的一部分在比100多的時候,採用傳統排序算法排序,取前100個。複雜度為O(100w*100)。

  方案3:採用局部淘汰法。選取前100個元素,並排序,記為序列L。然後一次掃描剩餘的元素x,與排好序的100個元素中最小的元素比,如果比這個最小的要大,那麼把這個最小的元素刪除,並把x利用插入排序的思想,插入到序列L中。依次循環,知道掃描了所有的元素。複雜度為O(100w*100)。

五十六 十個海量數據處理方法大總結

  ok,看了上面這麼多的面試題,是否有點頭暈。是的,需要一個總結。接下來,本文將簡單總結下一些處理海量數據問題的常見方法,而日後,本BLOG內會具體闡述這些方法。

  一、Bloomfilter

  適用範圍:可以用來實現數據字典,進行數據的判重,或者集合求交集

五十七 基本原理及要點:

  對於原理來說很簡單,位數組+k個獨立hash函數。將hash函數對應的值的位數組置1,查找時如果發現所有hash函數對應位都是1說明存在,很明顯這個過程並不保證查找的結果是100%正確的。同時也不支持刪除一個已經插入的關鍵字,因為該關鍵字對應的位會牽動到其他的關鍵字。所以一個簡單的改進就是countingBloomfilter,用一個counter數組代替位數組,就可以支持刪除了。

  還有一個比較重要的問題,如何根據輸入元素個數n,確定位數組m的大小及hash函數個數。當hash函數個數k=(ln2)*(m/n)時錯誤率最小。在錯誤率不大於E的情況下,m至少要等於n*lg(1/E)才能表示任意n個元素的集合。但m還應該更大些,因為還要保證bit數組裡至少一半為0,則m應該>=nlg(1/E)*lge大概就是nlg(1/E)1.44倍(lg表示以2為底的對數)。

  舉個例子我們假設錯誤率為0.01,則此時m應大概是n的13倍。這樣k大概是8個。

  注意這裡m與n的單位不同,m是bit為單位,而n則是以元素個數為單位(準確的說是不同元素的個數)。通常單個元素的長度都是有很多bit的。所以使用bloomfilter內存上通常都是節省的。

  擴展:

  Bloomfilter將集合中的元素映射到位數組中,用k(k為哈希函數個數)個映射位是否全1表示元素在不在這個集合中。Countingbloomfilter(CBF)將位數組中的每一位擴展為一個counter,從而支持了元素的刪除操作。SpectralBloomFilter(SBF)將其與集合元素的出現次數關聯。SBF採用counter中的最小值來近似表示元素的出現頻率。

  問題實例:給你A,B兩個文件,各存放50億條URL,每條URL佔用64字節,內存限制是4G,讓你找出A,B文件共同的URL。如果是三個乃至n個文件呢?

  根據這個問題我們來計算下內存的佔用,4G=2^32大概是40億*8大概是340億,n=50億,如果按出錯率0.01算需要的大概是650億個bit。現在可用的是340億,相差並不多,這樣可能會使出錯率上升些。另外如果這些urlip是一一對應的,就可以轉換成ip,則大大簡單了。

五十八 Hashing

  適用範圍:快速查找,刪除的基本數據結構,通常需要總數據量可以放入內存

  基本原理及要點:

  hash函數選擇,針對字符串,整數,排列,具體相應的hash方法。

  碰撞處理,一種是openhashing,也稱為拉鍊法;另一種就是closedhashing,也稱開地址法,openedaddressing。

  擴展:

d-lefthashing中的d是多個的意思,我們先簡化這個問題,看一看2-lefthashing。2-lefthashing指的是將一個哈希表分成長度相等的兩半,分別叫做T1和T2,給T1和T2分別配備一個哈希函數,h1和h2。在存儲一個新的key時,同時用兩個哈希函數進行計算,得出兩個地址h1[key]和h2[key]。這時需要檢查T1中的h1[key]位置和T2中的h2[key]位置,哪一個位置已經存儲的(有碰撞的)key比較多,然後將新key存儲在負載少的位置。如果兩邊一樣多,比如兩個位置都為空或者都存儲了一個key,就把新key存儲在左邊的T1子表中,2-left也由此而來。在查找一個key時,必須進行兩次hash,同時查找兩個位置。

問題實例:

  1).海量日誌數據,提取出某日訪問百度次數最多的那個IP。

  IP的數目還是有限的,最多2^32個,所以可以考慮使用hash將ip直接存入內存,然後進行統計。

五十九 bit-map

  適用範圍:可進行數據的快速查找,判重,刪除,一般來說數據範圍是int的10倍以下

  基本原理及要點:使用bit數組來表示某些元素是否存在,比如8位電話號碼

  擴展:bloomfilter可以看做是對bit-map的擴展

  問題實例:

  1)已知某個文件內包含一些電話號碼,每個號碼為8位數字,統計不同號碼的個數。

  8位最多99999999,大概需要99m個bit,大概10幾m字節的內存即可。

  2)2.5億個整數中找出不重複的整數的個數,內存空間不足以容納這2.5億個整數。

  將bit-map擴展一下,用2bit表示一個數即可,0表示未出現,1表示出現一次,2表示出現2次及以上。或者我們不用2bit來進行表示,我們用兩個bit-map即可模擬實現這個2bit-map。

六十 堆

  適用範圍:海量數據前n大,並且n比較小,堆可以放入內存

  基本原理及要點:最大堆求前n小,最小堆求前n大。方法,比如求前n小,我們比較當前元素與最大堆裡的最大元素,如果它小於最大元素,則應該替換那個最大元素。這樣最後得到的n個元素就是最小的n個。適合大數據量,求前n小,n的大小比較小的情況,這樣可以掃描一遍即可得到所有的前n元素,效率很高。

  擴展:雙堆,一個最大堆與一個最小堆結合,可以用來維護中位數。

  問題實例:

  1)100w個數中找最大的前100個數。

  用一個100個元素大小的最小堆即可。

六十一 雙層桶劃分—-其實本質上就是【分而治之】的思想,重在“分”的技巧上!

  適用範圍:第k大,中位數,不重複或重複的數字

  基本原理及要點:因為元素範圍很大,不能利用直接尋址表,所以通過多次劃分,逐步確定範圍,然後最後在一個可以接受的範圍內進行。可以通過多次縮小,雙層只是一個例子。

  擴展:

  問題實例:

  1).2.5億個整數中找出不重複的整數的個數,內存空間不足以容納這2.5億個整數。

  有點像鴿巢原理,整數個數為2^32,也就是,我們可以將這2^32個數,劃分為2^8個區域(比如用單個文件代表一個區域),然後將數據分離到不同的區域,然後不同的區域在利用bitmap就可以直接解決了。也就是說只要有足夠的磁盤空間,就可以很方便的解決。

  2).5億個int找它們的中位數。

  這個例子比上面那個更明顯。首先我們將int劃分為2^16個區域,然後讀取數據統計落到各個區域裡的數的個數,之後我們根據統計結果就可以判斷中位數落到那個區域,同時知道這個區域中的第幾大數剛好是中位數。然後第二次掃描我們只統計落在這個區域中的那些數就可以了。

  實際上,如果不是int是int64,我們可以經過3次這樣的劃分即可降低到可以接受的程度。即可以先將int64分成2^24個區域,然後確定區域的第幾大數,在將該區域分成2^20個子區域,然後確定是子區域的第幾大數,然後子區域裡的數的個數只有2^20,就可以直接利用directaddrtable進行統計了。

六十二 數據庫索引

  適用範圍:大數據量的增刪改查

  基本原理及要點:利用數據的設計實現方法,對海量數據的增刪改查進行處理。

六十三 倒排索引(Invertedindex)

  適用範圍:搜索引擎,關鍵字查詢

  基本原理及要點:為何叫倒排索引?一種索引方法,被用來存儲在全文搜索下某個單詞在一個文檔或者一組文檔中的存儲位置的映射。

  以英文為例,下面是要被索引的文本:

  T0=“itiswhatitis”

  T1=“whatisit”

  T2=“itisabanana”

  我們就能得到下面的反向文件索引:

  “a”:{2}

  “banana”:{2}

  “is”:{0,1,2}

  “it”:{0,1,2}

  “what”:{0,1}

  檢索的條件”what”,”is”和”it”將對應集合的交集。

  正向索引開發出來用來存儲每個文檔的單詞的列表。正向索引的查詢往往滿足每個文檔有序頻繁的全文查詢和每個單詞在校驗文檔中的驗證這樣的查詢。在正向索引中,文檔佔據了中心的位置,每個文檔指向了一個它所包含的索引項的序列。也就是說文檔指向了它包含的那些單詞,而反向索引則是單詞指向了包含它的文檔,很容易看到這個反向的關係。

  擴展:

  問題實例:文檔檢索系統,查詢那些文件包含了某單詞,比如常見的學術論文的關鍵字搜索。

六十四 外排序

  適用範圍:大數據的排序,去重

  基本原理及要點:外排序的歸併方法,置換選擇敗者樹原理,最優歸併樹

  擴展:

  問題實例:

  1).有一個1G大小的一個文件,裡面每一行是一個詞,詞的大小不超過16個字節,內存限制大小是1M。返回頻數最高的100個詞。

  這個數據具有很明顯的特點,詞的大小為16個字節,但是內存只有1m做hash有些不夠,所以可以用來排序。內存可以當輸入緩衝區使用。

六十五trie樹

  適用範圍:數據量大,重複多,但是數據種類小可以放入內存

  基本原理及要點:實現方式,節點孩子的表示方式

  擴展:壓縮實現。

  問題實例:

  1).有10個文件,每個文件1G,每個文件的每一行都存放的是用戶的query,每個文件的query都可能重複。要你按照query的頻度排序。

  2).1000萬字符串,其中有些是相同的(重複),需要把重複的全部去掉,保留沒有重複的字符串。請問怎麼設計和實現?

  3).尋找熱門查詢:查詢串的重複度比較高,雖然總數是1千萬,但如果除去重複後,不超過3百萬個,每個不超過255字節。

六十六 分佈式處理mapreduce

  適用範圍:數據量大,但是數據種類小可以放入內存

  基本原理及要點:將數據交給不同的機器去處理,數據劃分,結果歸約。

  擴展:

  問題實例:

  1).ThecanonicalexampleapplicationofMapReduceisaprocesstocounttheappearancesof

  eachdifferentwordinasetofdocuments:

  2).海量數據分佈在100臺電腦中,想個辦法高效統計出這批數據的TOP10。

  3).一共有N個機器,每個機器上有N個數。每個機器最多存O(N)個數並對它們操作。如何找到N^2個數的中數(median)?

六十七 經典問題分析

  上千萬or億數據(有重複),統計其中出現次數最多的前N個數據,分兩種情況:可一次讀入內存,不可一次讀入。

  可用思路:trie樹+堆,數據庫索引,劃分子集分別統計,hash,分佈式計算,近似統計,外排序

  所謂的是否能一次讀入內存,實際上應該指去除重複後的數據量。如果去重後數據可以放入內存,我們可以為數據建立字典,比如通過map,hashmap,trie,然後直接進行統計即可。當然在更新每條數據的出現次數的時候,我們可以利用一個堆來維護出現次數最多的前N個數據,當然這樣導致維護次數增加,不如完全統計後在求前N大效率高。

  如果數據無法放入內存。一方面我們可以考慮上面的字典方法能否被改進以適應這種情形,可以做的改變就是將字典存放到硬盤上,而不是內存,這可以參考數據庫的存儲方法。

  當然還有更好的方法,就是可以採用分佈式計算,基本上就是map-reduce過程,首先可以根據數據值或者把數據hash(md5)後的值,將數據按照範圍劃分到不同的機子,最好可以讓數據劃分後可以一次讀入內存,這樣不同的機子負責處理各種的數值範圍,實際上就是map。得到結果後,各個機子只需拿出各自的出現次數最多的前N個數據,然後彙總,選出所有的數據中出現次數最多的前N個數據,這實際上就是reduce過程。

  實際上可能想直接將數據均分到不同的機子上進行處理,這樣是無法得到正確的解的。因為一個數據可能被均分到不同的機子上,而另一個則可能完全聚集到一個機子上,同時還可能存在具有相同數目的數據。比如我們要找出現次數最多的前100個,我們將1000萬的數據分佈到10臺機器上,找到每臺出現次數最多的前100個,歸併之後這樣不能保證找到真正的第100個,因為比如出現次數最多的第100個可能有1萬個,但是它被分到了10臺機子,這樣在每臺上只有1千個,假設這些機子排名在1000個之前的那些都是單獨分佈在一臺機子上的,比如有1001個,這樣本來具有1萬個的這個就會被淘汰,即使我們讓每臺機子選出出現次數最多的1000個再歸併,仍然會出錯,因為可能存在大量個數為1001個的發生聚集。因此不能將數據隨便均分到不同機子上,而是要根據hash後的值將它們映射到不同的機子上處理,讓不同的機器處理一個數值範圍。

  而外排序的方法會消耗大量的IO,效率不會很高。而上面的分佈式方法,也可以用於單機版本,也就是將總的數據根據值的範圍,劃分成多個不同的子文件,然後逐個處理。處理完畢之後再對這些單詞的及其出現頻率進行一個歸併。實際上就可以利用一個外排序的歸併過程。

  另外還可以考慮近似計算,也就是我們可以通過結合自然語言屬性,只將那些真正實際中出現最多的那些詞作為一個字典,使得這個規模可以放入內存。

六十八 使用mr,spark,sparksql編寫wordcount程序

  【Spark版本】

  valconf=newSparkConf().setAppName("wd").setMaster("local[1]")

  valsc=newSparkContext(conf,2)

  //加載

  vallines=sc.textFile("tructField("name",DataTypes.StringType,true)")

  valparis=lines.flatMap(line=>line.split("^A"))

  valwords=paris.map((_,1))

  valresult=words.reduceByKey(_+_).sortBy(x=>x._1,false)

  //打印

  result.foreach(

  wds=>{

  println("單詞:"+wds._1+"個數:"+wds._2)

  }

  )

  sc.stop()

  【sparksql版本】

  valconf=newSparkConf().setAppName("sqlWd").setMaster("local[1]")

  valsc=newSparkContext(conf)

  valsqlContext=newSQLContext(sc)

  //加載

  vallines=sqlContext.textFile("E:idea15createRecommederdatawords.txt")

  valwords=lines.flatMap(x=>x.split("")).map(y=>Row(y))

  valstructType=StructType(Array(StructField("name",DataTypes.StringType,true)))

  valdf=sqlContext.createDataFrame(rows,structType)

  df.registerTempTable("t_word_count")

  sqlContext.udf.register("num_word",(name:String)=>1)

  sqlContext.sql("selectname,num_word(name)fromt_word_count").groupBy(df.col("name")).count().show()

  sc.stop()

六十九 2hive的使用,內外部表的區別,分區作用,UDF和Hive優化

  (1)hive使用:倉庫、工具

  (2)hive內外部表:內部表數據永久刪除,外部表數據刪除後、其他人依然可以訪問

  (3)分區作用:防止數據傾斜

  (4)UDF函數:用戶自定義的函數(主要解決格式,計算問題),需要繼承UDF類

 java代碼實現

  classTestUDFHiveextendsUDF{

  publicStringevalute(Stringstr){

  try{

  return"hello"+str

  }catch(Exceptione){

  returnstr+"error"

  }

  }

  }

  (5)Hive優化:看做mapreduce處理

  a排序優化:sortby效率高於orderby

  b分區:使用靜態分區(statu_date="20160516",location="beijin"),每個分區對應hdfs上的一個目錄

  c減少job和task數量:使用錶鏈接操作

  d解決groupby數據傾斜問題:設置hive.groupby.skewindata=true,那麼hive會自動負載均衡

  e小文件合併成大文件:表連接操作

  f使用UDF或UDAF函數:hive中UDTF編寫和使用(轉) - ggjucheng - 博客園

  3Hbase的rk設計,Hbase優化

  aowkey:hbase三維存儲中的關鍵(rowkey:行鍵,columnKey(family+quilaty):列鍵,timestamp:時間戳)

  owkey字典排序、越短越好

  使用id+時間:9527+20160517使用hash散列:dsakjkdfuwdsf+9527+20160518

  應用中,rowkey一般10~100bytes,8字節的整數倍,有利於提高操作系統性能

  bHbase優化

  分區:RegionSplit()方法NUMREGIONS=9

  column不超過3個

  硬盤配置,便於regionServer管理和數據備份及恢復

  分配合適的內存給regionserver

  其他:

  hbase查詢

  (1)get

  (2)scan

  使用startRow和endRow限制

  4Linux常用操作

  aawk:

  awk-F:`BEGIN{print"nameip"}{print$1$7}END{print"結束"}`/etc/passwd

  last|head-5|awk`BEGIN{print"nameip"}{print$1$3}END{print"結束了"}`

  bsed

七十 5java線程2種方式實現、設計模式、鏈表操作、排序

  (1)2種線程實現

  aThread類繼承

  TestCLth=newTestCL()//類繼承Thread

  th.start()

  b實現Runnable接口

  Threadth=newThread(newRunnable(){

  publicvoidrun(){

  //實現

  }

  })

  th.start()

  (2)設計模式,分為4類

  a創建模式:如工廠模式、單例模式

  b結構模式:代理模式

  c行為模式:觀察者模式

  d線程池模式

  6【最熟悉的一個項目簡介、架構圖、使用的技術、你負責哪塊】

  7cdh集群監控

  (1)數據庫監控(2)主機監控(3)服務監控(4)活動監控

  8計算機網絡工作原理

  將分散的機器通過數據通信原理連接起來,實現共享!

  9hadoop生態系統

  hdfsmapreducehivehbasezookeeperlume

  hdfs原理及各個模塊的功能mapreduce原理mapreduce優化數據傾斜

  11系統維護:hadoop升級datanode節點

  12【講解項目要點:數據量、多少人、分工、運行時間、項目使用機器、算法、技術】

  13【學會向對方提問】

  14jvm運行機制及內存原理

  運行:

  I加載.class文件

  II管理並且分配內存

  III垃圾回收

  內存原理:

  IJVM裝載環境和配置

  II裝載JVM.dll並初始化JVM.dll

  IV處理class類

  15hdfs、yarn參數調優

  mapreduce.job.jvm.num.tasks

  默認為1,設置為-1,重用jvm

  16Hbase、Hive、impala、zookeeper、Storm、spark原理和使用方法、使用其架構圖講解

  七十一、如何為一個hadoop任務設置mappers的數量

  答案:

  使用job.setNumMapTask(intn)手動分割,這是不靠譜的

  官方文檔:“Note:Thisisonlyahinttotheframework”說明這個方法只是提示作用,不起決定性作用

  實際上要用公式計算:

  Max(min.split,min(max.split,block))就設置分片的最大最下值computeSplitSize()設置

  七十二 有可能使hadoop任務輸出到多個目錄中麼?如果可以,怎麼做?

  答案:在1.X版本後使用MultipleOutputs.java類實現

  源碼:

  MultipleOutputs.addNamedOutput(conf,"text2",TextOutputFormat.class,Long.class,String.class);

  MultipleOutputs.addNamedOutput(conf,"text3",TextOutputFormat.class,Long.class,String.class);

 發音:Multiple['m?lt?pl]--》許多的

 七十三 如何為一個hadoop任務設置要創建的reducer的數量

  答案:job.setNumReduceTask(intn)

  或者調整hdfs-site.xml中的mapred.tasktracker.reduce.tasks.maximum默認參數值

 七十四 在hadoop中定義的主要公用InputFormats中,哪一個是默認值:

  (A)TextInputFormat

  (B)KeyValueInputFormat

  (C)SequenceFileInputFormat

  答案:A

七十五 兩個類TextInputFormat和KeyValueTextInputFormat的區別?

  答案:

  ?FileInputFormat的子類:

  TextInputFormat(默認類型,鍵是LongWritable類型,值為Text類型,key為當前行在文件中的偏移量,value為當前行本身);

  ?KeyValueTextInputFormat(適合文件自帶key,value的情況,只要指定分隔符即可,比較實用,默認是分割);

  源碼:

  StringsepStr=job.get("mapreduce.input.keyvaluelinerecordreader.key.value.separator","");

  注意:在自定義輸入格式時,繼承FileInputFormat父類

七十六 在一個運行的hadoop任務中,什麼是InputSpilt?

  答案:InputSplit是MapReduce對文件進行處理和運算的輸入單位,只是一個邏輯概念,每個InputSplit並沒有對文件實際的切割,只是記錄了要處理的數據的位置(包括文件的path和hosts)和長度(由start和length決定),默認情況下與block一樣大。

  拓展:需要在定義InputSplit後,展開講解mapreduce的原理

七十七 Hadoop框架中,文件拆分是怎麼被調用的?

  答案:JobTracker,創建一個InputFormat的實例,調用它的getSplits()方法,把輸入目錄的文件拆分成FileSplist作為Mappertask的輸入,生成Mappertask加入Queue。

  源碼中體現了拆分的數量

  longgoalSize=totalSize/(numSplits==0?1:numSplits);

  longminSize=Math.max(job.getLong(org.apache.hadoop.mapreduce.lib.input.

  FileInputFormat.SPLIT_MINSIZE,1),minSplitSize);//minSplitSize默認是1

七十八 分別舉例什麼情況下使用combiner,什麼情況下不會使用?

  答案:Combiner適用於對記錄彙總的場景(如求和),但是,求平均數的場景就不能使用Combiner了

七十九、Hadoop中job和Tasks之間的區別是什麼?

  答案:

  job是工作的入口,負責控制、追蹤、管理任務,也是一個進程

  包含maptask和reducetask

  Tasks是map和reduce裡面的步驟,主要用於完成任務,也是線程

八十 Hadoop中通過拆分任務到多個節點運行來實現並行計算,但是某些節點運行較慢會拖慢整個任務的運行,hadoop採用何種機制應對這種情況?

  答案:結果查看監控日誌,得知產生這種現象的原因是數據傾斜問題

  解決:

  (1)調整拆分mapper的數量(partition數量)

  (2)增加jvm

  (3)適當地將reduce的數量變大

八十一 流API中的什麼特性帶來可以使mapreduce任務可以以不同語言(如perlubyawk等)實現的靈活性?

  答案:用可執行文件作為Mapper和Reducer,接受的都是標準輸入,輸出的都是標準輸出

八十二 參考下面的M/R系統的場景:

  --HDFS塊大小為64MB

  --輸入類型為FileInputFormat

  --有3個文件的大小分別是:64k65MB127MB

  Hadoop框架會把這些文件拆分為多少塊?

  答案:

  64k------->一個block

  65MB---->兩個文件:64MB是一個block,1MB是一個block

  127MB--->兩個文件:64MB是一個block,63MB是一個block

八十三 Hadoop中的RecordReader的作用是什麼?

  答案:屬於split和mapper之間的一個過程

  將inputsplit輸出的行為一個轉換記錄,成為key-value的記錄形式提供給mapper

八十四 Map階段結束後,Hadoop框架會處理:Partitioning,shuffle和sort,在這個階段都會發生了什麼?

  答案:

  MR一共有四個階段,splitmapshuffreduce在執行完map之後,可以對map的輸出結果進行分區,

  分區:這塊分片確定到哪個reduce去計算(彙總)

  排序:在每個分區中進行排序,默認是按照字典順序。

  Group:在排序之後進行分組

八十五 如果沒有定義partitioner,那麼數據在被送達reducer前是如何被分區的?

  答案:

  Partitioner是在map函數執行context.write()時被調用。

  用戶可以通過實現自定義的?Partitioner來控制哪個key被分配給哪個?Reducer。

  查看源碼知道:

  如果沒有定義partitioner,那麼會走默認的分區Hashpartitioner

  publicclassHashPartitionerextendsPartitioner{

  /**Use{@linkObject#hashCode()}topartition.*/

  publicintgetPartition(Kkey,Vvalue,intnumReduceTasks){

  return(key.hashCode()&Integer.MAX_VALUE)%numReduceTasks;

  }

  }

八十六 什麼是Combiner?

  答案:這是一個hadoop優化性能的步驟,它發生在map與reduce之間

  目的:解決了數據傾斜的問題,減輕網絡壓力,實際上時減少了maper的輸出

  源碼信息如下:

  publicvoidreduce(Textkey,Iteratorvalues,

  OutputCollectoroutput,Reporterreporter)

  throwsIOException{

  LongWritablemaxValue=null;

  while(values.hasNext()){

  LongWritablevalue=values.next();

  if(maxValue==null){

  maxValue=value;

  }elseif(value.compareTo(maxValue)>0){

  maxValue=value;

  }

  }

  output.collect(key,maxValue);

  }

  在collect實現類中,有這樣一段方法

  publicsynchronizedvoidcollect(Kkey,Vvalue)

  throwsIOException{

  outCounter.increment(1);

  writer.append(key,value);

  if((outCounter.getValue()%progressBar)==0){

progressable.progress();

八十七 下面哪個程序負責HDFS數據存儲。答案C datanode

a)NameNode

b)Jobtracker

c)Datanode

d)secondaryNameNode

e)tasktracker

八十八HDfS中的block默認保存幾份?答案A默認3分

a)3份

b)2份

c)1份

d)不確定

八十九 下列哪個程序通常與NameNode在一個節點啟動?答案D

a)SecondaryNameNode

b)DataNode

c)TaskTracker

d)Jobtracke

此題分析:

hadoop的集群是基於master/slave模式,namenode和jobtracker屬於master,datanode和tasktracker屬於slave,master只有一個,而slave有多個SecondaryNameNode內存需求和NameNode在一個數量級上,所以通常secondary NameNode(運行在單獨的物理機器上)和NameNode運行在不同的機器上。

JobTracker和TaskTracker

JobTracker對應於NameNode

TaskTracker對應於DataNode

DataNode和NameNode是針對數據存放來而言的

JobTracker和TaskTracker是對於MapReduce執行而言的

mapreduce中幾個主要概念,mapreduce整體上可以分為這麼幾條執行線索:obclient,JobTracker與TaskTracker。

1)、JobClient會在用戶端通過JobClient類將應用已經配置參數打包成jar文件存儲到hdfs,並把路徑提交到Jobtracker,然後由JobTracker創建每一個Task(即MapTask和ReduceTask)並將它們分發到各個TaskTracker服務中去執行。

2)、JobTracker是一個master服務,軟件啟動之後JobTracker接收Job,負責調度Job的每一個子任務task運行於TaskTracker上,並監控它們,如果發現有失敗的task就重新運行它。一般情況應該把JobTracker部署在單獨的機器上。

3)、TaskTracker是運行在多個節點上的slaver服務。TaskTracker主動與JobTracker通信,接收作業,並負責直接執行每一個任務。TaskTracker都需要運行在HDFS的DataNode上。

九十. Hadoop作者 答案:C Doug cutting

a)Martin Fowler

b)Kent Beck

c)Doug cutting

九十一 . HDFS默認Block Size答案:B

a)32MB

b)64MB

c)128MB

(因為版本更換較快,這裡答案只供參考)

九十二.下列哪項通常是集群的最主要瓶頸:答案:C磁盤

a)CPU

b)網絡

c)磁盤IO

d)內存

該題解析:

首先集群的目的是為了節省成本,用廉價的pc機,取代小型機及大型機。小型機和大型機有什麼特點?

1.cpu處理能力強

2.內存夠大

所以集群的瓶頸不可能是a和d

3.網絡是一種稀缺資源,但是並不是瓶頸。

4.由於大數據面臨海量數據,讀寫數據都需要io,然後還要冗餘數據,hadoop一般備3份數據,所以IO就會打折扣。

九十三.關於SecondaryNameNode哪項是正確的?答案C

a)它是NameNode的熱備

b)它對內存沒有要求

c)它的目的是幫助NameNode合併編輯日誌,減少NameNode啟動時間

d)SecondaryNameNode應與NameNode部署到一個節點。

多選題:

九十四 下列哪項可以作為集群的管理?答案:ABD

a)Puppet

b)Pdsh

c)Cloudera Manager

d)Zookeeper

九十五 .配置機架感知的下面哪項正確:答案ABC

a)如果一個機架出問題,不會影響數據讀寫

b)寫入數據的時候會寫到不同機架的DataNode中

c)MapReduce會根據機架獲取離自己比較近的網絡數據

九十六 Client端上傳文件的時候下列哪項正確?答案B

a)數據經過NameNode傳遞給DataNode

b)Client端將文件切分為Block,依次上傳

c)Client只上傳數據到一臺DataNode,然後由NameNode負責Block複製工作

該題分析:

Client向NameNode發起文件寫入的請求。

NameNode根據文件大小和文件塊配置情況,返回給Client它所管理部分DataNode的信息。

Client將文件劃分為多個Block,根據DataNode的地址信息,按順序寫入到每一個DataNode塊中。

11.下列哪個是Hadoop運行的模式:答案ABC

a)單機版

b)偽分佈式

c)分佈式

九十七. Cloudera提供哪幾種安裝CDH的方法?答案:ABCD

a)Cloudera manager

b)Tarball

c)Yum

d)Rpm

判斷題:

九十八 Ganglia不僅可以進行監控,也可以進行告警。(正確)

分析:此題的目的是考Ganglia的瞭解。嚴格意義上來講是正確。ganglia作為一款最常用的Linux環境中的監控軟件,它擅長的的是從節點中按照用戶的需求以較低的代價採集數據。但是ganglia在預警以及發生事件後通知用戶上並不擅長。最新的ganglia已經有了部分這方面的功能。但是更擅長做警告的還有Nagios。Nagios,就是一款精於預警、通知的軟件。通過將Ganglia和Nagios組合起來,把Ganglia採集的數據作為Nagios的數據源,然後利用Nagios來發送預警通知,可以完美的實現一整套監控管理的系統。

九十九. Block Size是不可以修改的。(錯誤)

分析:它是可以被修改的Hadoop的基礎配置文件是hadoop-default.xml,默認建立一個Job的時候會建立Job的Config,Config首先讀入hadoop-default.xml的配置,然後再讀入hadoop-site.xml的配置(這個文件初始的時候配置為空),hadoop-site.xml中主要配置需要覆蓋的hadoop-default.xml的系統級配置。

一百. Nagios不可以監控Hadoop集群,因為它不提供Hadoop支持。(錯誤)

分析:Nagios是集群監控工具,而且是雲計算三大利器之一

16.如果NameNode意外終止,SecondaryNameNode會接替它使集群繼續工作。(錯誤)

分析:SecondaryNameNode是幫助恢復,而不是替代,如何恢復,可以查看.

101. Cloudera CDH是需要付費使用的。(錯誤)

分析:第一套付費產品是Cloudera Enterpris,Cloudera Enterprise在美國加州舉行的Hadoop大會(Hadoop Summit)上公開,以若干私有管理、監控、運作工具加強Hadoop的功能。收費採取合約訂購方式,價格隨用的Hadoop叢集大小變動。

102. Hadoop是Java開發的,所以MapReduce只支持Java語言編寫。(錯誤)

分析:rhadoop是用R語言開發的,MapReduce是一個框架,可以理解是一種思想,可以使用其他語言開發。

103. Hadoop支持數據的隨機讀寫。(錯)

分析:lucene是支持隨機讀寫的,而hdfs只支持隨機讀。但是HBase可以來補救。HBase提供隨機讀寫,來解決Hadoop不能處理的問題。HBase自底層設計開始即聚焦於各種可伸縮性問題:表可以很“高”,有數十億個數據行;也可以很“寬”,有數百萬個列;水平分區並在上千個普通商用機節點上自動複製。表的模式是物理存儲的直接反映,使系統有可能提高高效的數據結構的序列化、存儲和檢索。

104. NameNode負責管理metadata,client端每次讀寫請求,它都會從磁盤中讀取或則會寫入metadata信息並反饋client端。(錯誤)

此題分析:

NameNode不需要從磁盤讀取metadata,所有數據都在內存中,硬盤上的只是序列化的結果,只有每次namenode啟動的時候才會讀取。

1)文件寫入

Client向NameNode發起文件寫入的請求。

NameNode根據文件大小和文件塊配置情況,返回給Client它所管理部分DataNode的信息。

Client將文件劃分為多個Block,根據DataNode的地址信息,按順序寫入到每一個DataNode塊中。

2)文件讀取

Client向NameNode發起文件讀取的請求。

105. NameNode本地磁盤保存了Block的位置信息。(個人認為正確,歡迎提出其它意見)

分析:DataNode是文件存儲的基本單元,它將Block存儲在本地文件系統中,保存了Block的Meta-data,同時週期性地將所有存在的Block信息發送給NameNode。NameNode返回文件存儲的DataNode的信息。

Client讀取文件信息。

106. DataNode通過長連接與NameNode保持通信。( )

這個有分歧:具體正在找這方面的有利資料。下面提供資料可參考。

首先明確一下概念:

(1).長連接

Client方與Server方先建立通訊連接,連接建立後不斷開,然後再進行報文發送和接收。這種方式下由於通訊連接一直存在,此種方式常用於點對點通訊。

(2).短連接

Client方與Server每進行一次報文收發交易時才進行通訊連接,交易完畢後立即斷開連接。此種方式常用於一點對多點通訊,比如多個Client連接一個Server.

107. Hadoop自身具有嚴格的權限管理和安全措施保障集群正常運行。(錯誤)

分析:hadoop只能阻止好人犯錯,但是不能阻止壞人幹壞事

108. Slave節點要存儲數據,所以它的磁盤越大越好。(錯誤)

分析:一旦Slave節點宕機,數據恢復是一個難題

109. hadoop dfsadmin –report命令用於檢測HDFS損壞塊。(錯誤)

110. Hadoop默認調度器策略為FIFO(正確)

111.集群內每個節點都應該配RAID,這樣避免單磁盤損壞,影響整個節點運行。(錯誤)

分析:首先明白什麼是RAID,可以參考百科磁盤陣列。這句話錯誤的地方在於太絕對,具體情況具體分析。題目不是重點,知識才是最重要的。因為hadoop本身就具有冗餘能力,所以如果不是很嚴格不需要都配備RAID。具體參考第二題。

112.因為HDFS有多個副本,所以NameNode是不存在單點問題的。(錯誤)

113.每個map槽就是一個線程。(錯誤)

分析:首先我們知道什麼是map槽,map槽->map slotmap slot只是一個邏輯值( org.apache.hadoop.mapred.TaskTracker.TaskLauncher.numFreeSlots ),而不是對應著一個線程或者進程

114. Mapreduce的input split就是一個block。(錯誤)

115. NameNode的Web UI端口是50030,它通過jetty啟動的Web服務。(錯誤)

116. Hadoop環境變量中的HADOOP_HEAPSIZE用於設置所有Hadoop守護線程的內存。它默認是200 GB。(錯誤)

分析:hadoop為各個守護進程(namenode,secondarynamenode,jobtracker,datanode,tasktracker)統一分配的內存在hadoop-env.sh中設置,參數為HADOOP_HEAPSIZE,默認為1000M。

117. DataNode首次加入cluster的時候,如果log中報告不兼容文件版本,那需要NameNode執行“Hadoop amenode -format”操作格式化磁盤。(錯誤)

分析:

首先明白介紹,什麼ClusterID

ClusterID。添加了一個新的標識符ClusterID用於標識集群中所有的節點。當格式化一個Namenode,需要提供這個標識符或者自動生成。這個ID可以被用來格式化加入集群的其他Namenode。

收集了這些希望對大家有所幫助,微信zhanglindashuju


分享到:


相關文章: