2018/11/064

lustre running system - not reboot (or not shutdown) Lustre system을 구성하다 보면, luster drive 를 umount한 후에도 남아 있는 luster 관련 module 때문에 시스템의 재부팅이나 종료가 되지 않아 강제로 전원 버튼을 눌러 종료해야 하는 경우가 많은데요. 이 경우 lustre_rmmod 명령을 사용하면, 모든 lustre module 이 내려가면서 (remove) 이후 재부팅이나 종료가 정상적으로 진행 됩니다. 참조링크: http://wiki.lustre.org/Starting_and_Stopping_LNet 아래와 같이 아예 reboot 명령을 변경하거나 shutdown_lustre 명령을 생성해 두는 것도 좋을것 같습니다. [root@dasandata:~]# rm /usr/sbin/reboot [root@dasandata.. 2018. 11. 6.
openhpc - stateful provisioning node 에서 발생한 문제 두가지 openhpc - stateful provisioning node 에서 발생한 문제 두 가지 1. nvidia driver 설치 안됨. (기타 kernel source를 필요로 하는 패키지들은 모두 같은 문제 예상) /etc/warewulf/vnfs.conf 에서 /usr/src 가 제외되어 있으므로설치된 OS 에 kernel source 가 없어 module 생성이 안됨. [root@c43 ~]# ll /lib/modules/3.10.0-862.14.4.el7.x86_64/ lrwxrwxrwx 1 root root 43 Nov 2 09:56 build -> /usr/src/kernels/3.10.0-862.14.4.el7.x86 lrwxrwxrwx 1 root root 5 Nov 2 09:56 sour.. 2018. 11. 6.
[resolve] centos 7.5 - nvidia driver 410 설치시 Dependency error centos 7.5 - nvidia driver 410 설치시 Dependency error 발생 [root@dasandata:~]# [root@dasandata:~]# curl -L -o cuda-repo-rhel7-8.0.61-1.x86_64.rpm \> http://developer.download.nvidia.com/compute/cuda/repos/rhel7/x86_64/cuda-repo-rhel7-8.0.61-1.x86_64.rpm [root@dasandata:~]# yum -y install cuda-repo-rhel7-8.0.61-1.x86_64.rpm[root@dasandata:~]# [root@dasandata:~]# cat $/etc/yum.repos.d/cuda.repo[cuda]n.. 2018. 11. 6.
[resolve] open hpc - wwmkchroot - Trying other mirror FAILED open hpc 에서 wwmkchroot 명령을 사용할 때, Trying other mirror FAILED 가 발생할 경우 export YUM_MIRROR 를 선언한 후 진행 되는 것을 확인 하였습니다. [root@dasandata:~]# export CHROOT=/opt/ohpc/admin/images/centos7.5[root@dasandata:~]# wwmkchroot centos-7 ${CHROOT} Loaded plugins: fastestmirror, langpacksLoading mirror speeds from cached hostfilehttp://mirror.centos.org/centos-7/7/os/x86_64/repodata/repomd.xml: [Errno 14] curl#7 .. 2018. 11. 6.