職位描述
崗位職責:1. 算力中心服務器日常運維 - 包括 GPU 服務器、存儲節點、網絡設備的部署、上線、監控、巡檢、故障處理等。算力資源調整2. 硬件管理與故障排查 - 負責服務器、硬盤、內存、風扇、GPU 等硬件的安裝、替換和故障分析。3. 系統與環境維護 - 負責 Linux 系統的安裝、優化和升級,環境變量配置、NVIDIA 驅動和 CUDA 環境維護。4. 資源調度與使用監控 - 管理調度系統(如 Slurm/Kubernetes/Yarn 等),監控算力資源使用情況,協助用戶提交任務。5. 數據中心基礎設施建設與支持 - 參與數據中心(IDC)建設項目,包括機柜布局、配電規劃、網絡布線、冷通道系統等; - 協助管理電力、空調、UPS、動環監控系統,保障設施穩定運行; - 定期巡檢和維護 IDC 環境,協助廠商完成施工、驗收及擴容項目。6. 安全運維與權限控制 - 參與服務器與操作系統的安全加固(如 SSH 安全配置、最小權限原則等); - 管理用戶權限、密鑰、LDAP/AD 對接等; - 定期執行安全掃描(如 rootkit、漏洞、端口掃描等),防止入侵與病毒傳播; - 協助應對突發安全事件、日志追蹤與問題復盤。7. 文檔與規范制定 - 編寫和維護運維文檔、操作手冊、安全策略、故障記錄、應急流程、IDC運維標準。 任職要求:1. 學歷背景: - 本科及以上學歷,計算機、電子、通信、自動化等相關專業優先。2. 技術能力: - 熟練使用 Linux 系統(CentOS、Ubuntu 等),掌握系統服務、安全權限、系統加固等; - 熟悉 GPU(如 NVIDIA A100)、X86 架構服務器的組成及維護; - 了解網絡基礎知識(VLAN/IP/交換機配置);有防火墻、NAT、ACL 管理經驗優先; - 有 Python/Shell 運維腳本能力者優先。3. 安全相關經驗: - 熟悉 Linux 系統安全管理,如防火墻(iptables、firewalld)、SELinux、安全組管理; - 熟悉常見信息安全框架(如等保、ISO27001)或有參與過信息安全評審經驗; - 有賬號權限管理、運維審計、日志分析經驗; - 有安全工具使用經驗,如 Nessus、Lynis、Fail2ban、OSSEC 等者優先。4. 經驗要求: - 有 3 年以上數據中心、機房運維經驗;有真實搭建或運維過GPU平臺(K8s/Slurm/自研平臺皆可)的經歷;對GPU資源管控、調度策略、任務生命周期有深入理解和實戰經驗; - 有 HPC、AI 算力集群、云平臺(OpenStack/K8s)經驗者優先; - 有防火墻、堡壘機、殺毒硬件終端使用和維護經驗; - 有 IDC 機房建設經驗,熟悉配電、動環、冷通道、UPS 系統者優先。5. 其他要求: - 具備良好的溝通能力和團隊協作能力; - 能接受現場支持等工作安排; - 有責任心,具備較強的問題定位和應急處理能力。加分項(非必須):- 有等保三級或更高級別安全體系部署經驗- 有 NVIDIA DGX 系列或 A100 大規模部署經驗- 有大型 IDC 機房規劃、擴容、搬遷項目經驗- 熟悉主流日志收集與安全審計平臺(如 ELK、Wazuh、Graylog)- 熟悉動環監控系統- 有弱電布線、鏈路規劃、機房標準化建設經驗
企業介紹
蘇州新科蘭德科技有限公司創立于2010年2月,由來自美國斯坦福、清華、復旦大學等名校的業界精英與CSDN創始人蔣濤、真格基金合伙人李劍威聯合組建,是一家商業模式成熟,盈利高速增長的大數據公司,致力于為企業客戶提供數據解決方案和商業智能服務。
公司于2016年12月獲得3.6億C輪融資。
新科蘭德科技致力于創新理念、創新科技、創新模式、創新生活,相信科技運用的最終目的都是為了改善人的生活而服務。