服务器安装ubuntu18.04,然后配置环境深度学习环境
U盘启动,装Ubuntu18系统
Ubuntu 的iso镜像下载 https://mirrors.melbourne.co.uk/ubuntu-releases/ 可以选择上面的这个iso,保留一些图形化界面最好,虽然会多占点内存。
U盘刻录软件UltralISO(软碟通)poj下载: https://cn.ultraiso.net/xiazai.html(官网下载) 注册码(随便挑一个填进去): Registration name: Home Registration code: 4BA9-0D54-214A-C938
Registration name: Heinzdieter Beckmann Jr Registration code: 641D-D430-88E6-A656
Registration name: Steve Olson Registration code: 2BEC-ED28-82BB-95D7
Registration name: Christopher Wydler Registration code: 424F-ED23-7C0A-D75B
然后插入U盘,打开UltrallSO软碟通软件-》文件-》打开-》选择你下好的本地iso文件,打开 然后在上面这个界面中,最上面那一个( 启动-》写入硬盘映像 ) 先格式化一个U盘(记得买大一些,我的是30G的,记得备份U盘里的原数据): 选择exFAT格式化,大小值默认。这里NTFS文件格式是windows用的,而FAT32也不行,因为单文件大小限制在4GB内,显然不适用于深度学习这种大数据文件要求。所以选exFAT格式。 格式化完成之后,直接点击写入,即可。 U盘制作好之后,直接弹出。
我用的服务器是超微,里面有几张GPU卡。
首先打开服务器的电源(竖的图案是通电,圈的图案是断电),
随便找一台显示屏,用D-sub线连接(线的实物如下): 然后将,键盘和鼠标都插入服务器。
然后将U盘插进去和键盘与鼠标一样连接的USB接口(我插蓝色的USB接口,虽然网上说接口都一样)。
然后系统开机,开机与开电源并不是一个东西,这两个开关在服务器的前后两个不同位置。其中开机用软件也能控制。我刚开始玩的时候找了半天,显示屏一直显示无信号,我一度以为是服务器或者显示屏坏了、、、、
开机的完全结束之前!!!像那种大一点的服务器都是会有画面提示你按什么键位进入bios系统,对于超微,我是按提示疯狂的按Del(删除)和Tab键位,似乎Tab是大写的,我还会按一下shfit键位。总之,主要按tab。然后服务器的开机很慢,然后进入Bios系统。(每个电脑进入bois方式可能不同,可以搜索其进入bios的键位)
成功进入之后,找到boot ->boot mode select选项,从legacy,UEFI,Dual三个启动方式中选择UEFI,然后从UEFI的这么多个启动方式中,找到第一个,按Enter点进去更换,更换成带有“USB hard disk”字样的选择作为UEFI的第一个选项,然后保存退出即可,他会重启。(UEFI更加智能,我那个服务器2018年买的,是可以选这个启动方式)
这时候,在完全开机前,根据提示,选择invoke方式,按F11(屏幕会有提示)。
然后找到你的kinston(这是我U盘的品牌类型),然后回车即可!进入安装。(我有些忘了是找到带kinston的还是说找到带USB hard disk的,都试一下)
这样就进入图形界面安装了,直接根据选择语言和时区就可以了(建议用英文版)。
另外,我装系统的方式选择删除掉原来系统,因此下面这里选了第一个。 然后基本上就装好了系统。
服务器简单配置(开启SSH服务):
刚开始装好了之后是没有网络的,你的服务器需要绑定固定的ip v4的地址。(下面的是中文版,英文版一样的) ip填好后点应用即可,ip没问题的话就有网了 配置ssh,开启ssh服务: 在桌面右键打开terminal终端,执行下面命令
1、下载ssh
sudo apt-get install openssh-server
2、开启ssh服务
sudo /etc/init.d/ssh start
3、ssh重启
service ssh restart
执行12条就可以了,即便是后来ubuntu reboot命令重启,他也会自动连上,不需要再次开启ssh服务。
防火墙是默认关闭的,这时候就可以在远程用ssh通过ip地址,连接本地服务器了。
因为服务器里有英伟达显卡,因此时常用nvidia-smi等命令查看显卡信息。于是要装英伟达驱动包。
先更新安装源,因为linux版本不太新,一些安装源都过期或者没有了,然后需要重启 更新源
sudo apt update
查看推荐的驱动
sudo ubuntu-drivers devices
安装驱动(命令后面的nvidia-driver-470换成上面命令返回的推荐驱动号)
sudo apt install nvidia-driver-470
重启系统
sudo reboot
安装Anaconda3
https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-2022.10-Linux-x86_64.sh 忘了为什么要下载这个版本了,只记得跑代码好像没有因为anaconda的版本而出过问题。 不支持wget下载,需要在浏览器下载,然后传上去,或者ubuntu的浏览器也可以下载。
cd到下载目录,然后保险起见赋予安装权限命令:
chmod +x Anaconda3-2022.10-Linux-x86_64.sh
安装,然后过程中不断回车
./anaconda3-2022.10-Linux-x86_64.sh
默认安装目录是/home/username/anaconda3 然后等待解压: 然后问你要不要用conda 初始化,输入yes即可。
然后关闭终端,再打开新的终端看到base即成功,后面就可以删除掉安装包。
虚拟环境创建和命令
创建虚拟环境命令, 可指定下载哪个版本python=
conda create --name your_environment_name python=3.8.2
退出conda环境
conda deactivate
激活环境
conda activate name
删除虚拟环境
conda remove --name env_name
根据环境配置文件创建虚拟环境(这个命令先放着,不要用它,因为一个项目那么多包,有很多下载不了)
conda env create -f environment.yaml
导出指定虚拟环境配置
conda env export -n env_name > environment.yaml
查看有哪些环境
conda env list
查看有哪些conda 安装的包
conda list
有时候conda install 《包名》,安装包的时候安装不了就用pip install 《包名》
执行pip install gpustat,然后直接输入gpustat命令,查看gpu状况:
深度学习框架pytorch,对应python包的安装
先用前面的conda create --name your_environment_name python=3.8.2创建好需要的python环境(每个项目的readme文件都会说自己python的版本),然后用activate命令激活创建的your_environment_name环境
先查看自己的显卡支持哪个版本的pytorch,执行命令查看:nvidia-smi 进入pytorch官网 https://pytorch.org/,根据自己的参数选择,我这边是应该下载cuda 11.4,发现版本太久了,于是需要找左下角找以往的版本。 找了一圈发现没有11.4的下载命令,百度了一下11.3也是可以的。
执行官网中推荐版本命令:conda install pytorch==1.12.1 torchvision==0.13.1 torchaudio==0.12.1 cudatoolkit=11.3 -c pytorch,安装那几个包 至此,pytorch环境就已经安装好了。 然后根据项目的readme的markdown文件看看整个项目需要那些其他的python包。直接把他们复制一下,再vi requirements.txt创建文件,按i,粘贴进去,按Esc ,再按:,输入wq! 再回车,保存退出。
然后一次性用pip下载所有包: 用pip下载基本上都是能成功的,用conda下载百分之五十都下载不成功,但是conda很保险对依赖处理的很好。 当然,创建好环境指定安装好python之后,把别人的项目git clone下自己的服务器,直接运行,在看看错误里显示哪些包缺失,缺哪个就pip install 哪个,这样也行,就是费时间而已。
差点忘了git还要下载: 执行命令:
sudo apt install git
然后查看。
之后还有一个问题,就是怎么在自己的windows系统上,用远程软件连接,编码,测试,调试,然后挂进程训练代码等等~~~~~~~~~再说