快速开始
创建集群
英博云基于K8S Native架构提供智算服务,算力、存储、网络均以K8S集群作为载体。为了使用英博云的服务,您需要首先创建自己的专属K8S集群。
创建集群的入口位于,英博云控制台:资源管理 -> 集群
,点击创建集群
按钮,在接下来的页面中输入集群名称,点击确定
。
集群创建需要几分钟时间,创建成功后状态会更新为运行中
。
注意:
- 当前英博云的每个账号,最多可以创建5个集群。
创建共享存储卷
共享存储卷,是具有独立生命周期的存储空间,可以按需挂载到开发机的某个目录,并可以跨多个开发机共享。
创建共享存储卷的入口位于,英博云控制台:资源管理 -> 存储 -> 共享存储卷
,点击创建存储卷
,选择具体的集群集群,填入存储卷名称,存储类型选择共享存储(HDD)
,存储空间填入256GB
,点击确定
。
共享存储卷一般需要数秒钟即可创建完成,创建完成后,状态会变为已就绪
,如下所示:
创建开发机
开发机,也称为ContainerServer
,是英博云自研的基于K8S Pod的计算实例。相比传统虚拟机,基于Pod的架构使得开发机具有更好的弹性能力及响应速度。在模型训练、推理、镜像制作等场景,开发机可以更好的满足AI任务的需求。
创建开发机的入口位于,英博云控制台:资源管理 -> 开发机
,点击创建开发机
,进入创建页面。
在创建页面的基本信息
部分,选择具体的集群、命名空间,计费模型选择按量付费
,填入开发机名称,如下所示:
在创建页面的实例配置
部分,需要选择资源类型,镜像。
应对轻量级的AI模型训练,4090/4090D是个不错的选择。这里我们选择资源类型为4090
,规格选择bob-eci.4090.5large
,即4090单卡。
注意:
- 也可以替换为4090D,应对试验场景,性能差距不明显。
接下来选择具体镜像,我们选择预置镜像 -> pytorch -> 2.5.1-cuda12.2-python3.10-ubuntu22.04
,具体如下所示:
在创建页面的存储配置
部分,选择刚刚创建的共享存储卷,并输入挂载路径,这里输入/data
就可以,如下所示:
点击确定
按钮,等待10秒左右的时间,开发机启动完成后,状态会变为运行中
。
连接开发机
推荐以下两种连接方式,您可以根据使用习惯选择:
- 方式一:点击具体开发机的
JupyterLab
链接,可以直接基于Web Terminal访问开发机。 - 方式二:通过ssh命令连接开发机,ssh连接的地址,可以点击具体开发机的
远程连接
按钮进行获取。
这里我们直接使用JupyterLab
进行连接,界面如下:
在JupyterLab的Launcher页,点击Terminal
进入终端,界面如下:
接下来,可以执行nvidia-smi
命令,查看GPU卡的具体信息。
开始AI训练及推理
到这里,您已经在英博云成功创建了:集群
,共享存储卷
,开发机
,现在开始您快乐的AI编程之旅吧!
以下是几个示例,帮您快速上手:
开始模型训练:基于DeepSeek进行模型微调的例子。
部署推理服务:部署Higgs Audio v2
模型,实现在线推理。