問題1:宿主機電源斷電後,雲主機不能故障遷移
問題描述:
模擬計算節點宕機後,雲主機不能故障遷移。
問題分析:
宿主機斷電的這種場景有一定的幾率會觸發ipmi-Fence關機,另一種情況是consul檢測到host已經powe-off,pass了fence,Fence host需要通過ipmi,而這個操作需要Dell r740 ipmi硬件支持lan接口,
而具體觸發impi-fence還是pass fence,這個和檢測機制有關
解決方法:
登錄dell r740 Ipmi控制檯,開啟LAN後支持。
問題2:cpu特性問題導致windows 2016雲主機不能啟動
問題描述:
windows 2016系統啟動會一直HANG在logo界面,無法進入系統。
問題分析:
其它鏡像創建的雲主機正常,唯有2016不行,判斷是因為部分cpu特性沒有設置引起
解決方法:
編輯計算節【libvirt】設置如下參數
cpu_model = kvm64
cpu_featureset=tm2,est,smx,vmx,pbe,acpi,vme,pdpe1gb,rdtscp,pclmuldq,ssse3,fma,pcid,dca,sse4.1,sse4.2,x2apic,movbe,popcnt,aes,xsave,avx,f16c,rdrand,bmi1,avx2,smep,bmi2,lahf_lm,nx
重啟計算節點nova-compute服務後解決
問題3:查看雲盤信息提示qos錯誤
問題描述:
查看創建好的雲盤信息時提示qos錯誤
問題分析:
登錄後臺查看/var/log/cinder/volume.log日誌有qos關鍵字
解決方法:
將cinder type的is_predefined屬性調整為false後解決。
問題4:mellanox 網卡驅動問題導致 vlan ip 不通
問題描述:
對應物理網口設置trunk,native vlan 2,允許3和4通信)
操作系統層設置了一個ip(走native vlan 2),又設置了一個子接口vlan ip (走vlan 3)。
設置完成後nativevlan 2 ping網關正常,發現3不能通訊。
問題分析:
確認網卡型號,考慮升級驅動。
解決方法:
下載mellanox驅動,用ipmi 虛擬光驅掛載至系統
安裝依賴包
yum install -yperl lsof libxml2-python pciutils
解壓驅動包
chmod +x install
./install
重啟後vlan 3 ip通訊正常。
問題描述:
控制節點1和3,根目錄爆滿,無法寫入。
問題分析:
排查到/var/log/consul日誌佔用430GB引起的。
清空/var/log/consul/tenant.log日誌後,根目錄空間充足。
查看/var/log/consul/tenant.log提示ERR.consu.rpc等關鍵字報錯
調整/etc/security/limit.conf,註釋一下參數後,此類告警日誌消失
# End of file
#* soft memlock unlimited
#* hard memlock unlimited
#* soft nofile 262144
#* hard nofile 262144
#* soft nproc 10240
#* hard nproc 10240
# BEGIN ANSIBLE MANAGED BLOCK
* hard nofile 65535
* soft nofile 65535
# END ANSIBLE MANAGED BLOCK
查看/var/log/consul/tenant.log提示ERR.raft..vote等關鍵字報錯
查看/var/log/heat/heat-engine.log提示rabbit報錯
查看rabbit集群狀態已經異常
解決方法:
重建rabbitMQ集群后正常。
問題6:雲主機自動快照異常
問題描述:
創建雲主機快照一直在創建中,創建雲硬盤快照可以。
問題分析:
查看nova ERROR日誌有提示virtual-size關鍵字
判斷可能是glance版本兼容問題,這個virtual-size字段當時是用來兼容ussvd的
解決方法:
升級glance版本後,雲主機快照創建正常。
問題7:在線遷移雲主機失敗
問題描述:
不能完成在線遷移,後臺有如下ERROR日誌
/var/log/nova-compute.log
2018-10-09 16:30:47.422 325466 ERROR nova.virt.libvirt.driver [req-ff1a789c-738f-4eac-a8ca-38e0d65597d4 cc66277d14f6444eb3c3160b2cd85c3c ca2b2d438761441a9ee1e2d2c8e8fe95 - - -] [instance: f6fd3243-04b8-404d-bc8d-4fb8f783851c] Live Migration failure: operation failed: Lost connection to destination host
2018-10-09 16:30:47.785 325466 ERROR nova.virt.libvirt.driver [req-ff1a789c-738f-4eac-a8ca-38e0d65597d4 cc66277d14f6444eb3c3160b2cd85c3c ca2b2d438761441a9ee1e2d2c8e8fe95 - - -] [instance: f6fd3243-04b8-404d-bc8d-4fb8f783851c] Migration operation has aborted
問題分析:
平臺默認遷移指定為內部網絡
解決方法:
註釋以下選項,讓遷移流量走管理即可
/etc/nova/nova/conf
##live_migration_inbound_addr = 1.1.1.1
#live_migration_inbound_addr = 169.255.128.3
#live_migration_progress_timeout
問題8:調整cinder type名稱
問題描述:
前期部署時命名錯誤,為xsky
問題分析:
計劃將xsky調整為HDD
解決方法:
Cinder type list #獲取xsky uuid
cinder type-update --name HDD 【type_uuid】
登錄平臺驗證xksy已更改為HDD
問題9:默認SSD資源配額無限制導致創建項目時報錯
問題描述:
創建項目時提示“SSD雲硬盤數量不能大於雲硬盤數量”報錯
問題分析:
SSD雲盤配額默認無限制,需要修改底層默認配額。
解決方法:
cinder quota-class-show default
+----------------------+-------+
| Property | Value |
+----------------------+-------+
| backup_gigabytes | 1000 |
| backups | 10 |
| gigabytes | 1000 |
| gigabytes_HDD | -1 |
| gigabytes_SSD | -1 |
| per_volume_gigabytes | -1 |
| snapshots | 10 |
| snapshots_HDD | -1 |
| snapshots_SSD | -1 |
| volumes | 10 |
| volumes_HDD | -1 |
| volumes_SSD | -1 |
+----------------------+-------+
#把SSD雲盤默認配額調整為1000GB和10個。
cinder quota-class-update default --volume-type SSD --gigabytes 1000 --volumes 10
+----------------------+-------+
| Property | Value |
+----------------------+-------+
| backup_gigabytes | 1000 |
| backups | 10 |
| gigabytes | 1000 |
| gigabytes_HDD | -1 |
| gigabytes_SSD | 1000 |
| per_volume_gigabytes | -1 |
| snapshots | 10 |
| snapshots_HDD | -1 |
| snapshots_SSD | -1 |
| volumes | 10 |
| volumes_HDD | -1 |
| volumes_SSD | 10 |
+----------------------+-------+
[root@controller03-4n09-s13 ~]#
創建項目時無報錯,默認配額已更改。
問題10: 雲盤掛載盤符和系統內部盤符不對稱
問題描述:
雲盤掛載盤符和系統內部盤符不對稱
問題分析:
雲平臺並不能實時監測到盤符的變動。問題原因是雲主機系統運行時,你在第一次順序掛載雲盤後,又對雲盤執行卸載掛載操作。
如果你是第一次掛載,那麼雲平臺和系統內部盤符一定是正確的。例如:odb1(vdb),odb2(vdc),bode(vdd)
如果是雲主機系統運行時,有對雲盤執行卸載掛載操作。期間你應該卸載了odb1(vdb),bode(vdd)。
然後先掛載bode(vdb)然後是odb1(vdd)。不過平臺認為還是是odb1(vdb),odb2(vdc),bode(vdd)不會變動。
解決方法:
雲主機重啟後就和第一次掛載時保持一致了。
問題11:雲主機之間不能ssh和scp文件
問題描述:
雲主機不能ssh以及scp拷貝文件
問題分析:
其中雲主機內部mtu過高,與宿主機之間有衝突。
解決方法:
問題12:調整計算節點CPU/內存超分比
問題描述:
平臺默認cpu超分比1:16,內存超分比1:1,部分用戶要求更改超分比
問題分析:
可通過修改計算節點的參數實現
解決方法:
Vi /etc/nova/nova.conf
[DEFAULT]
cpu_allocation_ratio=8.0
ram_allocation_ratio=2.0
重啟計算節點nova-compute服務生效
systemctl restart openstack-nova-compute.service
問題13:對vm放行multi ip
問題描述:
客戶要求2臺雲主機上搭建ha軟件,會用到一個虛擬ip,這個ip要求在2臺雲主機上通行。
通過cu界面無法設置。
問題分析:
可通過後臺更新網卡port參數即可
解決方法:
2臺雲主機都找到網卡所屬port id,放行即可:
Neutron port-list
neutron port-update 9041c946-ca1f-4bfd-b1cd-bce7c1ececc8 --allowed-address-pairs type=dict list=true ip_address=10.169.131.202
問題14:修改平臺dhcp 下發給雲主機的mtu 值
問題描述:
部分用戶會要求修改平臺默認dhcp分發的mtu值
問題分析:
可通過修改網絡節點的配置文件參數實現
解決方法:
vi /etc/neutron/dnsmasq-neutron.conf
dhcp-option-force=26,1450
重啟服務生效
systemctl restart neutron-dhcp-agent.service
問題15:修改租戶防火牆中默認端口
問題描述:
平臺默認防火牆有預定義的規則,部分用戶會要求修改默認防火牆中的端口
問題分析:
可通過修改網絡節點配置文件參數後實現
解決方法:
Vi /etc/neutron/neutron.conf
default_sg_ingress_rules = 22:3389
重啟服務後生效
systemctl restart neutron-server.service
問題16:擴容的計算節點新建雲主機失敗
問題描述:
新擴容節點無法開通雲主機
問題分析:
Nova-compute日誌有Kvm報錯
解決方法:
Chmod 666 /dev/kvm
Chown root:kvm /dev/kvm
問題17:擴容的計算節點雲主機無法出外網
問題描述:
雲主機無法ping通網關
解決方法:
Yum install openvswitch-dkms即可
問題18:擴容節點修改vxlan內部ip
問題描述:
發現vxlan ip部署時腳本中填寫錯了,如何合理的修改這個IP呢?
解決方法:
遷移機器到其它節點上
disable關閉nova-compute服務,
ovs-vsctl del-br br-tun
openvswitch_agent.ini
修改/etc/sysconfig/network-scripts/ifcfg-bond1.1252
重啟一下neutron-openvswitch-agent
問題19:測試的2TB雲硬盤(含一個2TB快照)不能正常完成刪除
故障描述:
這塊雲硬盤有綁定過虛擬機,且對這塊雲盤有生成一個快照,並且有用到這個快照去生成一個雲硬盤(基於快照的鏈接克隆)。刪除雲主機,刪除基於快照創建的雲硬盤,再刪除這個2TB雲盤快照時失敗,2TB雲盤也無法完成刪除。
解決方法:
從ceph後臺取消rbd設備快照保護,刪除快照和塊,再從openstack節點刪除cinder 雲盤快照和雲盤,問題解決。
解決過程:
cinder list --all-tenants 從openstack查看所有云盤,記錄雲盤ID
cinder snapshot-list --all-tenants從openstack查看雲盤快照,記錄雲盤快照ID
Rados lspools ceph層面查看ceph所有存儲池
rbd ls volumes ceph層面查看雲盤對應pool的rbd塊設備,找到異常雲盤ID
rbd snap ls volumes/volume-2aee3132-23b7-4b54-afde-0fdd6dea3da3/ ceph層面查看雲盤快照ID
rbd snap unprotectvolumes/volume-2aee3132-23b7-4b54-afde-0fdd6dea3da3@snapshot-fc44a39b-8f2f-49eb-bf1a-c87989e24126ceph層面取消雲盤快照保護
rbd snap rmvolumes/volume-2aee3132-23b7-4b54-afde-0fdd6dea3da3@snapshot-fc44a39b-8f2f-49eb-bf1a-c87989e24126 ceph層面刪除雲盤快照
rbd rm volumes/volume-2aee3132-23b7-4b54-afde-0fdd6dea3da3ceph層面刪除雲盤
cinder snapshot-deletefc44a39b-8f2f-49eb-bf1a-c87989e24126,從openstack層面刪除雲盤快照
cinderdelete 2aee3132-23b7-4b54-afde-0fdd6dea3da3 從openstack層面刪除雲盤
問題20:測試的雲硬盤全量備份刪除不掉
故障描述:
從雲主機中執行的全量備份,有云系統盤和雲數據盤的備份。
雲主機刪除後,刪除雲系統盤備份正常,刪除雲硬盤備份刪除不掉。
故障分析:
從後臺刪除即可
解決方法:
freezer backup-list 查看備份
freezer backup-delete 刪除備份
問題描述:
cpu超過8核的windows雲主機,任務管理器中不能看到8個核心監控,設備管理器中有8個cpu qemu
問題分析:
新建的規格,(如cpu大於8核)如果要給windows (如2008R2)雲主機使用,還需要設置規格元數據。
解決方法:
#ssh登錄控制節點,執行變量環境
source admin-openrc
#查詢規格
openstack flatvor list
#更新規格的cpu_max_sockets=4,這個最大隻能為4,hw:cpu_max_cores可以靈活定義。
openstack flavor set 740ef797-22c5-47e5-bb7a-c6f2bce4fc23 --property hw:cpu_max_sockets=4 --property hw:cpu_max_cores=12
問題22:雲平臺添加一個網段
問題描述:
平臺受限,不能添加指定的vlan
問題分析:
默認平臺支持顯示16個連續vlan,如果您想要的vlan不在16個vlan連續顯示範圍內,可以考慮後臺添加,後臺添加好後,web會顯示。
底層配置:
修改節點為Neutron網絡節點修改配置文件,添加所需vlan:
provider字段添加所需vlan範圍即可,示例為vlan30到131
[root@host178869506 ~]# cat/etc/neutron/plugins/ml2/ml2_conf.ini
[ml2]
type_drivers = vlan
tenant_network_types = vlan
extension_drivers = port_security
mechanism_drivers = openvswitch
path_mtu = 9000
[securitygroup]
firewall_driver = openvswitch
enable_add_router_flows = true
[ml2_type_flat]
flat_networks =
[ml2_type_vlan]
network_vlan_ranges = self:100:200,provider:30:131
重啟服務生效
Systemctl restart neutron-server.service
Local_settings負責web顯示,默認平臺支持16個vlan。修改provider字段添加所需vlan範圍即可。示例為130到131的2個vlan。
[root@host178869505ml2]# cat /etc/openstack-dashboard/local_settings|grep -i 131
'provider': [130,131],
[root@host178869505 ml2]#
重啟httpd生效,登錄web,就可以選擇新建130-131 vlan 網段。
Systemctl restart httpd
那麼問題來了,如果您想要的vlan不是一個連續範圍的,可通過如下命令新建即可
創建一個net:
neutron net-create --provider:network_typevlan --provider:physical_network provider --provider:segmentation_id 131 test131 --shared--router:external
創建一個subnet:
neutron subnet-create203f919c-dc2e-4624-9f35-3ccfb2462213 10.169.131.0/24 --name vlan131 --gateway 10.169.131.254 --dns-nameserver 10.169.0.76 --allocation-poolstart=10.169.131.225,end=10.169.131.227
網絡交換機配置
萬兆交換機業務口放行所需vlan,
萬兆交換機連接用戶交換機trunk口需放行所需vlan。
閱讀更多 新鈦雲服 的文章