OpenStack常見的22個問題彙總


OpenStack常見的22個問題彙總


問題1:宿主機電源斷電後,雲主機不能故障遷移


問題描述:

模擬計算節點宕機後,雲主機不能故障遷移。


問題分析:

宿主機斷電的這種場景有一定的幾率會觸發ipmi-Fence關機,另一種情況是consul檢測到host已經powe-off,pass了fence,Fence host需要通過ipmi,而這個操作需要Dell r740 ipmi硬件支持lan接口,

而具體觸發impi-fence還是pass fence,這個和檢測機制有關



解決方法:

登錄dell r740 Ipmi控制檯,開啟LAN後支持。


問題2:cpu特性問題導致windows 2016雲主機不能啟動


問題描述:

windows 2016系統啟動會一直HANG在logo界面,無法進入系統。


問題分析:

其它鏡像創建的雲主機正常,唯有2016不行,判斷是因為部分cpu特性沒有設置引起


解決方法:

編輯計算節【libvirt】設置如下參數

cpu_model = kvm64

cpu_featureset=tm2,est,smx,vmx,pbe,acpi,vme,pdpe1gb,rdtscp,pclmuldq,ssse3,fma,pcid,dca,sse4.1,sse4.2,x2apic,movbe,popcnt,aes,xsave,avx,f16c,rdrand,bmi1,avx2,smep,bmi2,lahf_lm,nx

重啟計算節點nova-compute服務後解決


問題3:查看雲盤信息提示qos錯誤


問題描述:

查看創建好的雲盤信息時提示qos錯誤


問題分析:

登錄後臺查看/var/log/cinder/volume.log日誌有qos關鍵字


解決方法:

將cinder type的is_predefined屬性調整為false後解決。


問題4:mellanox 網卡驅動問題導致 vlan ip 不通


問題描述:

對應物理網口設置trunk,native vlan 2,允許3和4通信)

操作系統層設置了一個ip(走native vlan 2),又設置了一個子接口vlan ip (走vlan 3)。

設置完成後nativevlan 2 ping網關正常,發現3不能通訊。


問題分析:

確認網卡型號,考慮升級驅動。


解決方法:

下載mellanox驅動,用ipmi 虛擬光驅掛載至系統

安裝依賴包

yum install -yperl lsof libxml2-python pciutils

解壓驅動包

chmod +x install

./install

重啟後vlan 3 ip通訊正常。


問題5:consul tenant 錯誤日誌導致根目錄空間不足,服務異常


問題描述:

控制節點1和3,根目錄爆滿,無法寫入。


問題分析:

排查到/var/log/consul日誌佔用430GB引起的。

清空/var/log/consul/tenant.log日誌後,根目錄空間充足。

查看/var/log/consul/tenant.log提示ERR.consu.rpc等關鍵字報錯

調整/etc/security/limit.conf,註釋一下參數後,此類告警日誌消失


OpenStack常見的22個問題彙總


# End of file

#* soft memlock unlimited

#* hard memlock unlimited

#* soft nofile 262144

#* hard nofile 262144

#* soft nproc 10240

#* hard nproc 10240

# BEGIN ANSIBLE MANAGED BLOCK

* hard nofile 65535

* soft nofile 65535

# END ANSIBLE MANAGED BLOCK


查看/var/log/consul/tenant.log提示ERR.raft..vote等關鍵字報錯

查看/var/log/heat/heat-engine.log提示rabbit報錯

查看rabbit集群狀態已經異常


解決方法:

重建rabbitMQ集群后正常。


問題6:雲主機自動快照異常



問題描述:

創建雲主機快照一直在創建中,創建雲硬盤快照可以。


問題分析:

查看nova ERROR日誌有提示virtual-size關鍵字

判斷可能是glance版本兼容問題,這個virtual-size字段當時是用來兼容ussvd的


解決方法:

升級glance版本後,雲主機快照創建正常。


問題7:在線遷移雲主機失敗


問題描述:

不能完成在線遷移,後臺有如下ERROR日誌

/var/log/nova-compute.log

2018-10-09 16:30:47.422 325466 ERROR nova.virt.libvirt.driver [req-ff1a789c-738f-4eac-a8ca-38e0d65597d4 cc66277d14f6444eb3c3160b2cd85c3c ca2b2d438761441a9ee1e2d2c8e8fe95 - - -] [instance: f6fd3243-04b8-404d-bc8d-4fb8f783851c] Live Migration failure: operation failed: Lost connection to destination host

2018-10-09 16:30:47.785 325466 ERROR nova.virt.libvirt.driver [req-ff1a789c-738f-4eac-a8ca-38e0d65597d4 cc66277d14f6444eb3c3160b2cd85c3c ca2b2d438761441a9ee1e2d2c8e8fe95 - - -] [instance: f6fd3243-04b8-404d-bc8d-4fb8f783851c] Migration operation has aborted


問題分析:

平臺默認遷移指定為內部網絡


解決方法:

註釋以下選項,讓遷移流量走管理即可

/etc/nova/nova/conf

##live_migration_inbound_addr = 1.1.1.1

#live_migration_inbound_addr = 169.255.128.3

#live_migration_progress_timeout


問題8:調整cinder type名稱


問題描述:

前期部署時命名錯誤,為xsky


問題分析:

計劃將xsky調整為HDD


解決方法:

Cinder type list #獲取xsky uuid

cinder type-update --name HDD 【type_uuid】

登錄平臺驗證xksy已更改為HDD


問題9:默認SSD資源配額無限制導致創建項目時報錯


問題描述:

創建項目時提示“SSD雲硬盤數量不能大於雲硬盤數量”報錯


問題分析:

SSD雲盤配額默認無限制,需要修改底層默認配額。


解決方法:

cinder quota-class-show default

+----------------------+-------+

| Property | Value |

+----------------------+-------+

| backup_gigabytes | 1000 |

| backups | 10 |

| gigabytes | 1000 |

| gigabytes_HDD | -1 |

| gigabytes_SSD | -1 |

| per_volume_gigabytes | -1 |

| snapshots | 10 |

| snapshots_HDD | -1 |

| snapshots_SSD | -1 |

| volumes | 10 |

| volumes_HDD | -1 |

| volumes_SSD | -1 |

+----------------------+-------+

#把SSD雲盤默認配額調整為1000GB和10個。

cinder quota-class-update default --volume-type SSD --gigabytes 1000 --volumes 10

+----------------------+-------+

| Property | Value |

+----------------------+-------+

| backup_gigabytes | 1000 |

| backups | 10 |

| gigabytes | 1000 |

| gigabytes_HDD | -1 |

| gigabytes_SSD | 1000 |

| per_volume_gigabytes | -1 |

| snapshots | 10 |

| snapshots_HDD | -1 |

| snapshots_SSD | -1 |

| volumes | 10 |

| volumes_HDD | -1 |

| volumes_SSD | 10 |

+----------------------+-------+

[root@controller03-4n09-s13 ~]#

創建項目時無報錯,默認配額已更改。


問題10: 雲盤掛載盤符和系統內部盤符不對稱


問題描述:

雲盤掛載盤符和系統內部盤符不對稱


問題分析:

雲平臺並不能實時監測到盤符的變動。問題原因是雲主機系統運行時,你在第一次順序掛載雲盤後,又對雲盤執行卸載掛載操作。

如果你是第一次掛載,那麼雲平臺和系統內部盤符一定是正確的。例如:odb1(vdb),odb2(vdc),bode(vdd)

如果是雲主機系統運行時,有對雲盤執行卸載掛載操作。期間你應該卸載了odb1(vdb),bode(vdd)。

然後先掛載bode(vdb)然後是odb1(vdd)。不過平臺認為還是是odb1(vdb),odb2(vdc),bode(vdd)不會變動。


解決方法:

雲主機重啟後就和第一次掛載時保持一致了。


問題11:雲主機之間不能ssh和scp文件


問題描述:

雲主機不能ssh以及scp拷貝文件


問題分析:

其中雲主機內部mtu過高,與宿主機之間有衝突。


解決方法:

OpenStack常見的22個問題彙總


問題12:調整計算節點CPU/內存超分比


問題描述:

平臺默認cpu超分比1:16,內存超分比1:1,部分用戶要求更改超分比


問題分析:

可通過修改計算節點的參數實現


解決方法:

Vi /etc/nova/nova.conf

[DEFAULT]

cpu_allocation_ratio=8.0

ram_allocation_ratio=2.0

重啟計算節點nova-compute服務生效

systemctl restart openstack-nova-compute.service


問題13:對vm放行multi ip


問題描述:

客戶要求2臺雲主機上搭建ha軟件,會用到一個虛擬ip,這個ip要求在2臺雲主機上通行。

通過cu界面無法設置。


問題分析:

可通過後臺更新網卡port參數即可


解決方法:

2臺雲主機都找到網卡所屬port id,放行即可:

Neutron port-list

neutron port-update 9041c946-ca1f-4bfd-b1cd-bce7c1ececc8 --allowed-address-pairs type=dict list=true ip_address=10.169.131.202


問題14:修改平臺dhcp 下發給雲主機的mtu 值


問題描述:

部分用戶會要求修改平臺默認dhcp分發的mtu值


問題分析:

可通過修改網絡節點的配置文件參數實現


解決方法:

vi /etc/neutron/dnsmasq-neutron.conf

dhcp-option-force=26,1450

重啟服務生效

systemctl restart neutron-dhcp-agent.service


問題15:修改租戶防火牆中默認端口


問題描述:

平臺默認防火牆有預定義的規則,部分用戶會要求修改默認防火牆中的端口


問題分析:

可通過修改網絡節點配置文件參數後實現


解決方法:

Vi /etc/neutron/neutron.conf

default_sg_ingress_rules = 22:3389

重啟服務後生效

systemctl restart neutron-server.service


問題16:擴容的計算節點新建雲主機失敗


問題描述:

新擴容節點無法開通雲主機


問題分析:

Nova-compute日誌有Kvm報錯


解決方法:

Chmod 666 /dev/kvm

Chown root:kvm /dev/kvm


問題17:擴容的計算節點雲主機無法出外網


問題描述:

雲主機無法ping通網關


解決方法:

Yum install openvswitch-dkms即可


問題18:擴容節點修改vxlan內部ip


問題描述:

發現vxlan ip部署時腳本中填寫錯了,如何合理的修改這個IP呢?


解決方法:

遷移機器到其它節點上

disable關閉nova-compute服務,

ovs-vsctl del-br br-tun

openvswitch_agent.ini

修改/etc/sysconfig/network-scripts/ifcfg-bond1.1252

重啟一下neutron-openvswitch-agent


問題19:測試的2TB雲硬盤(含一個2TB快照)不能正常完成刪除


故障描述:

這塊雲硬盤有綁定過虛擬機,且對這塊雲盤有生成一個快照,並且有用到這個快照去生成一個雲硬盤(基於快照的鏈接克隆)。刪除雲主機,刪除基於快照創建的雲硬盤,再刪除這個2TB雲盤快照時失敗,2TB雲盤也無法完成刪除。


解決方法:

從ceph後臺取消rbd設備快照保護,刪除快照和塊,再從openstack節點刪除cinder 雲盤快照和雲盤,問題解決。


解決過程:

cinder list --all-tenants 從openstack查看所有云盤,記錄雲盤ID

cinder snapshot-list --all-tenants從openstack查看雲盤快照,記錄雲盤快照ID

Rados lspools ceph層面查看ceph所有存儲池

rbd ls volumes ceph層面查看雲盤對應pool的rbd塊設備,找到異常雲盤ID

rbd snap ls volumes/volume-2aee3132-23b7-4b54-afde-0fdd6dea3da3/ ceph層面查看雲盤快照ID

rbd snap unprotectvolumes/volume-2aee3132-23b7-4b54-afde-0fdd6dea3da3@snapshot-fc44a39b-8f2f-49eb-bf1a-c87989e24126ceph層面取消雲盤快照保護

rbd snap rmvolumes/volume-2aee3132-23b7-4b54-afde-0fdd6dea3da3@snapshot-fc44a39b-8f2f-49eb-bf1a-c87989e24126 ceph層面刪除雲盤快照

rbd rm volumes/volume-2aee3132-23b7-4b54-afde-0fdd6dea3da3ceph層面刪除雲盤

cinder snapshot-deletefc44a39b-8f2f-49eb-bf1a-c87989e24126,從openstack層面刪除雲盤快照

cinderdelete 2aee3132-23b7-4b54-afde-0fdd6dea3da3 從openstack層面刪除雲盤


問題20:測試的雲硬盤全量備份刪除不掉


故障描述:

從雲主機中執行的全量備份,有云系統盤和雲數據盤的備份。

雲主機刪除後,刪除雲系統盤備份正常,刪除雲硬盤備份刪除不掉。


故障分析:

從後臺刪除即可


解決方法:

freezer backup-list 查看備份

freezer backup-delete 刪除備份


問題21:雲平臺新建規格


問題描述:

cpu超過8核的windows雲主機,任務管理器中不能看到8個核心監控,設備管理器中有8個cpu qemu


問題分析:

新建的規格,(如cpu大於8核)如果要給windows (如2008R2)雲主機使用,還需要設置規格元數據。


解決方法:

#ssh登錄控制節點,執行變量環境

source admin-openrc

#查詢規格

openstack flatvor list

#更新規格的cpu_max_sockets=4,這個最大隻能為4,hw:cpu_max_cores可以靈活定義。

openstack flavor set 740ef797-22c5-47e5-bb7a-c6f2bce4fc23 --property hw:cpu_max_sockets=4 --property hw:cpu_max_cores=12


問題22:雲平臺添加一個網段


問題描述:

平臺受限,不能添加指定的vlan


問題分析:

默認平臺支持顯示16個連續vlan,如果您想要的vlan不在16個vlan連續顯示範圍內,可以考慮後臺添加,後臺添加好後,web會顯示。


底層配置:

修改節點為Neutron網絡節點修改配置文件,添加所需vlan:

provider字段添加所需vlan範圍即可,示例為vlan30到131

[root@host178869506 ~]# cat/etc/neutron/plugins/ml2/ml2_conf.ini

[ml2]

type_drivers = vlan

tenant_network_types = vlan

extension_drivers = port_security

mechanism_drivers = openvswitch

path_mtu = 9000


[securitygroup]

firewall_driver = openvswitch

enable_add_router_flows = true

[ml2_type_flat]

flat_networks =


[ml2_type_vlan]

network_vlan_ranges = self:100:200,provider:30:131


重啟服務生效

Systemctl restart neutron-server.service


Local_settings負責web顯示,默認平臺支持16個vlan。修改provider字段添加所需vlan範圍即可。示例為130到131的2個vlan。


[root@host178869505ml2]# cat /etc/openstack-dashboard/local_settings|grep -i 131

'provider': [130,131],

[root@host178869505 ml2]#


重啟httpd生效,登錄web,就可以選擇新建130-131 vlan 網段。

Systemctl restart httpd


那麼問題來了,如果您想要的vlan不是一個連續範圍的,可通過如下命令新建即可


創建一個net:

neutron net-create --provider:network_typevlan --provider:physical_network provider --provider:segmentation_id 131 test131 --shared--router:external

創建一個subnet:

neutron subnet-create203f919c-dc2e-4624-9f35-3ccfb2462213 10.169.131.0/24 --name vlan131 --gateway 10.169.131.254 --dns-nameserver 10.169.0.76 --allocation-poolstart=10.169.131.225,end=10.169.131.227


網絡交換機配置

萬兆交換機業務口放行所需vlan,

萬兆交換機連接用戶交換機trunk口需放行所需vlan。


分享到:


相關文章: