Greenplum集羣主機名問題及修復

2018-06-30 10:53:00 楊建榮的學習筆記

昨天寫了一篇Greenplum數據倉庫遷移小記，看起來一起都在計劃中，一切都在掌握中，今天早上的時候，統計組的同學反饋說寫入GP的時候報了下面的錯誤。

看到這個錯誤，其實我的內心是很平靜的，因為看起來明顯是配置的問題。首先集群能夠正常啟動，其次集群的節點是使用了主機名的方式。pg_hba.conf和防火牆層面都調整過了。如果有的話，看起來調整也不是難事。

根據裡面的錯誤信息，11.20.130.28是遷移前的Master節點IP,遷移後的IP是11.21.130.28

28 Jun23:02:19ERRORInterconnect Error: Could not connect to seqserver (connection: 11, host: 11.20.130.28, port: 60221). (seg0 slice1 yz-dba-gp130-31:40000 pid=80331)

但是當我連接到環境之後，檢查了所有的節點配置，依舊沒有任何的發現。

業務數據的提供是有一個時間段的，如果在指定的時間段裡數據出不來，對於問題的分析和處理就會有一種額外的壓力。

所以看起來很簡單的問題，但是我卻找不到可以修改的地方。所以我的注意力主要在三個地方：

1.是segment節點的配置問題，但是pg_hba.conf沒有找到這個IP的任何配置信息

2.是Master端的配置問題，但是pg_hba.conf沒有找到這個IP的任何配置信息

3.是客戶端連接的問題，客戶端還在使用錯誤的IP連接，雖然邏輯不通，但是不能完全排除其他的可能因素，比如外部表的引用方式等。

所以為了快速驗證這個問題，我使用瞭如下的方式創建了一個表，來簡單驗證是否是服務端出了問題。

不幸的是，拋出了類似的錯誤，所以根據錯誤，儘管在seg0拋錯，在其他的segment節點也應該是類似的問題。

testDB=# create table test_sequence(id serial, name text);NOTICE: CREATE TABLE will create implicit sequence "test_sequence_id_seq" for serial column "test_sequence.id"NOTICE: Table doesn't have 'DISTRIBUTED BY' clause -- Using column named 'id' as the Greenplum Database data distribution key for this table.HINT: The 'DISTRIBUTED BY' clause determines the distribution of data. Make sure column(s) chosen are the optimal data distribution key to minimize skew.CREATE TABLEtestDB=# insert into test_sequence (name) values(1);ERROR: Interconnect Error: Could not connect to seqserver (connection: 11, host: 11.20.130.28, port: 60221). (seg0 slice1 yz-dba-gp130-31:40000 pid=130100)DETAIL: Connection timed out (connect errno 110)

這樣一個錯誤，讓我開始緊張起來。從原理上來說拋錯是指向seqserver,sqlserver可以理解為一個組件，所有的Segment獲取最新的Sequence都需要向Master的seqserver請求，然後seqserver更新Sequence的信息，返回給Segment。

所以順著這個思路來看，錯誤應該是segment連接Master的階段，所以錯誤應該需要在Master端來排查。

GP常用的數據字典gp_segment_configuration是首選，儘管我自己之前看了好幾遍，這次還是照例繼續核對下，沒想到這一看讓我開始有些慌張了，因為第1行的address字段是IP地址。

testDB=# select *from gp_segment_configuration; dbid | content | role | preferred_role | mode | status | port | hostname | address | replication_port | san_mounts ------+---------+------+----------------+------+--------+-------+-----------------+-----------------+------------------+------------ 1 | -1 | p | p | s | u | 5432 | yz-dba-gp130-28 | 11.20.130.28 | |  2 | 0 | p | p | s | u | 40000 | yz-dba-gp130-31 | yz-dba-gp130-31 | 41000 |  13 | 11 | p | p | s | u | 40001 | yz-dba-gp130-32 | yz-dba-gp130-32 | 41001 |

如此一來，整個GP集群的數據字典信息竟然有這樣的配置錯誤，讓目前的狀態很是糾結。

如果重新備份和導入數據，幾十TB的數據，導出和恢復都需要好幾天，這還不包括業務的影響時間和範圍，重新部署和搭建的代價。

否則還有什麼辦法呢，直接改數據字典的信息，改錯了之後，整個GP集群都不可用，那麼我們基本就可以歇菜了。

把服務器重新搬回原機房，估計系統部的同學會砍我。因為這個代價幾乎沒法衡量，同時我沒法保證一切都完全可控。

我重新配置一個本地的“虛”IP,比如服務器IP是11.21.130.28.我們內部從11.20.130.28來跳轉到11.21.130.28，但是顯然從網絡配置上就行不通。

如果我配置的是11.20.130.28_s這種字符串格式，那麼還能有一些希望，目前的純IP方式已經沒有了可能。

隨著時間一點一點過去，我們開始尋找各種可能性和方法。顯然快速解決方法，同時保持系統穩定是主線。

Greenplum能否直接修改主機名，雖然沒有完全確認，但是查看GP的一些資料，這個方法理論是可行的，至於修改之後是否可用，目前還不夠明朗。

那麼我們就需要測試和模擬，如果修改之後不可回退，導致GP集群不可用，那麼手工修改的方式我們就可以直接放棄，否則還是可以一試的。

所以我們沒有一上來就修改正式環境，先找了一個測試環境開始模擬。

初步的結論是如果配置失敗，會導致集群無法啟動，但是可以回退該配置。

所以有了這一個基本的基礎，我們開始嘗試修復。

停止GP集群。

$ gpstop -M fast20180628:11:14:52:100415 gpstop:yz-dba-gp130-28:gpadmin-[INFO]:-Starting gpstop with args: -M fast20180628:11:14:52:100415 gpstop:yz-dba-gp130-28:gpadmin-[INFO]:-Gathering information and validating the environment...20180628:11:14:52:100415 gpstop:yz-dba-gp130-28:gpadmin-[INFO]:-Obtaining Greenplum Master catalog information20180628:11:14:52:100415 gpstop:yz-dba-gp130-28:gpadmin-[INFO]:-Obtaining Segment details from master...下面的步驟是關鍵，使用如下的方式來連接到GP Master:[gpadmin@yz-dba-gp130-28 ~]$ PGOPTIONS='-c gp_session_role=utility' psql -U gpadmin postgrespsql (8.2.15)Type "help" for help.開啟系統表修改的設置。postgres=# set allow_system_table_mods='dml';SET查看GP segment的配置：postgres=# select *from gp_segment_configuration; dbid | content | role | preferred_role | mode | status | port | hostname | address | replication_port | san_mounts ------+---------+------+----------------+------+--------+-------+-----------------+-----------------+------------------+------------ 1 | -1 | p | p | s | u | 5432 | yz-dba-gp130-28 | 11.20.130.28 | |  2 | 0 | p | p | s | u | 40000 | yz-dba-gp130-31 | yz-dba-gp130-31 | 41000 |  13 | 11 | p | p | s | u | 40001 | yz-dba-gp130-32 | yz-dba-gp130-32 | 41001 | 開始修改該配置：postgres=# update gp_segment_configuration set address='yz-dba-gp130-28' where dbid=1 and hostname='yz-dba-gp130-28';UPDATE 1

整個過程很快就完成了。推出GP集群命令行，並停止GP集群。

postgres=# \q[gpadmin@yz-dba-gp130-28 ~]$ gpstop -m

啟動GP集群 gpstart -a，整個過程算是順利完成了，我們來開啟一個初步的驗證。

創建一個表customers,然後插入一行數據啟用自增列。

testDB=# CREATE TABLE customers testDB-# ( testDB(# customerid SERIAL primary key , testDB(# companyname character varying, testDB(# contactname character varying, testDB(# phone character varying, testDB(# country character varying testDB(# ) ;NOTICE: CREATE TABLE will create implicit sequence "customers_customerid_seq" for serial column "customers.customerid"NOTICE: CREATE TABLE / PRIMARY KEY will create implicit index "customers_pkey" for table "customers"CREATE TABLEtestDB=# insert into customers(companyname,contactname,phone,country) values('a1','b1','c1','d1');INSERT 0 1

整個驗證算是通過了，後續和同事做了確認，對於其他的場景也做了一些細緻的對比和測試，目前可以驗證整個GP segment節點是可用的。

後續也做了一些外的補充和檢查，GP集群的問題修復算是告一段落。

分享到:

閱讀更多 楊建榮的學習筆記 的文章

關鍵字: DBA 技術主機名

【揭祕GP】Greenplum R library：助力在GP中並行運行R程序

架構設計基礎：單服務.集群.分佈式，基本區別和聯繫

單機模式下搭建高可用spring cloud eureka 集群

【實戰系列】如何在 Greenplum 中創建聯合索引

【Greenplum Tips】修改服務器主機名需要注意的地方

【Greenplum Tips】psql 分區表顯示小竅門

【Greenplum Tips】JDBC 如何獲取存儲過程 Raise Notice 信息

【Greenplum ETL】Greenplum-Spark Connector 介紹

【實戰系列】如何在 docker 中安裝 greenplum 集群

驚呆了，竟然可以用這種方式秒建 Redis 集群？

【GP常見問題】Greenplum 環境搭建和基本查錯

手把手教你實現 Docker 部署 Redis 集群

【揭祕GP】一文幫你詳解 Greenplum 遷移工具——GPCopy

最新天貓Java研發團隊四面：併發壓測+Mina+事務+集群+秒殺架構

一文簡述服務器架構的演變過程：集群—分佈式—微服務

03.06 「GP上雲」基於 AWS 的 Greenplum 6：針對雲進行了優化

「實戰系列」TPC-B 測試：Greenplum 6版本比5版本到底好了多少

03.05 「實戰系列」TPC-B 測試：Greenplum 6版本比5版本到底好了多少

監控Elasticsearch v7.x 集群、節點、索引等等狀態

為了證明它的速度，一口氣對比了 Oracle、MySQL、Greenplum ....

使用 Kind 在離線環境創建 K8S 集群

Java 連接 Greenplum

01.19 「揭祕GP」Greenplum 6——新一代 PB 級分佈式 HTAP 數據庫

12.20 優雅地部署 Kafka 集群

11.21 支付寶高級Java現場面試37題：頁鎖+死鎖+集群+雪崩+負載等

使用 docker 搭建 clickhouse 集群

詳解數據倉庫之MPP架構--GreenPlum

使用 Rook Operator 快速搭建 Ceph 集群

Kafka入門-服務端參數配置

CentOS8 上建立多節點 Elastic stack 集群

集群、限流、緩存 BAT 大廠無非也就是這麼做

Kafka系列：基本概念、概述、設計、集群

深入學習Redis ：集群

史上最全Redis面試題(含答案):哨兵+複製+事務+集群+持久化等

最全Redis49題詳細答案：線程設計+哨兵+複製+事務+集群+持久化等

Web應用的負載均衡、集羣、高可用的解決方案——解決高並發

千萬PV網站架構中RabbitMQ安裝、集羣

kubeadm安裝kubernetes V1.11.1 集羣

單機，集群，分佈式的區別

服務器“分佈式”與“集群”的區別是什麼？

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"