閒聊大數據——Hadoop如何完成高考打分？教育頭條網

閒聊大數據——Hadoop如何完成高考打分？

緊張的高考已經結束了，不管考試結果如何，至少經歷了人生的一道坎。在接下來的三個月時間內，所有考生都可以隨意分配自己的時間，家長們在這個時間段也不會刻意去限制孩子的行動，只要沒有危險，開心就好。

然而在這輕鬆的日子裡有些人的忙碌才剛剛開始，這些人就是閱卷老師。

2018年，中國有975萬考生報名了高考，是近十年來人數最多的一次。如果按照通用的四科（語文、數學、英語、文綜或者理綜）來算的話，一共就有近四千萬試卷。一般而言，高考成績會在靠後15天左右公佈，那麼如何能快送的給這四千萬試卷打出分數呢？

大家都知道，試卷的評判一定是所有閱卷老師同時進行的，這似乎就是一個典型的分佈式系統，下面小鳥來帶大家一步步剖析如何用Hadoop構建高考評分系統。

首先，各省先將本省的試卷掃描後存入整個HDFS系統。在這一步中，一份試卷存一個文件，每一份考試文件命名規則以考生考+省份+學科命名。

接下來編寫第一個MapReduce程序，該程序的功能主要是統計出每個考生沒門分數的成績。

在第一個MapReduce程序的Map階段時，先用setup函數獲取文件名，接著按照省份和學科來給每份試卷評分。評分完畢後按照key為“考生考+省份+學科”，value為分數的形式，將所有的數據歸入shuffle階段。此步驟需要循環兩次，因為從邏輯上考慮，不同的MapTask（閱卷老師）評出的分數不一定相同。