hdfs

데이터 노드 시스템의 느린 블록 수신에 대한 Hadoop+ 경고

데이터 노드 머신(각 데이터 노드 머신에는 서비스 노드 관리자도 포함)이 포함된 Hadoop 클러스터가 있고 487모든 머신은 물리적 머신(DELL)이며 운영 체제는 RHEL 버전 7.9입니다. 각 데이터 노드 머신에는 12개의 디스크가 있으며 각 디스크 크기는 12T입니다. HDP 패키지(이전에는 Horton-works, 현재는 Cloudera)에서 설치된 Hadoop 클러스터 유형 사용자는 데이터 노드 시스템에서 실행되는 느린 Spark 애플리케이션에 대해 불평합니다. 조사 후 데이터 노드 로그에...

Admin 2024-11-4

hdfs

Hadoop 네임노드 힙 크기 조정

NameNode 프로세스는 JVM(Java Virtual Machine)에서 실행되며, NameNode에서 생성된 Java 객체는 JVM(Java Virtual Memory)에서 관리됩니다. 파일이나 디렉터리가 생성되면 힙 메모리에 inode 객체와 블록 객체가 생성됩니다. 네임스페이스로 관리되는 자바 객체의 크기는 150바이트에 가깝다. 초기에는 객체 크기가 작았기 때문에 상당한 양의 객체를 파일 시스템에 저장할 수 있었다. 이제 namnode 힙 크기를 조정한다고 가정해 보겠습니다. 네임노드 힙 ...

Admin 2024-9-23

hdfs

Unix 쉘 스크립트를 통한 누적 합계 방지 - hdfs 파일 복사

Hdfs 디렉터리(파일 포함)를 한 위치에서 다른 위치로 복사하고 있지만 대상 디렉터리는 1개뿐입니다. 첫 번째 반복에서는 처음에는 대상 디렉터리에 이전 파일이 없기 때문에 올바른 파일 크기 수와 파일 수를 제공합니다. 그러나 두 번째 반복에서는 누적 추가, 즉 첫 번째 반복의 개수를 포함하여 제공됩니다. 최신 파일 복사본을 기준으로 계산하거나 누적 합계/개수를 방지하는 방법 방금 사용할 때 누적 합계 및 개수를 피하는 방법 hdfs dfs -count "{destination}" 주문하다. ...

Admin 2024-6-11

hdfs

HDFS 파일 시스템을 사용하여 프로덕션 Hadoop 클러스터에서 RAM 메모리 캐시 및 버퍼 지우기

우리는 265개의 Linux RHEL 시스템으로 구성된 Hadoop 클러스터를 보유하고 있습니다. 총 265개의 머신 중 HDFS 파일 시스템을 갖춘 230개의 데이터 노드 머신이 있습니다. 각 데이터 노드의 총 메모리는 128G이며 이러한 시스템에서 많은 Spark 애플리케이션을 실행합니다. 지난 달에 또 다른 Spark 애플리케이션을 추가했기 때문에 프로세스가 데이터 노드 시스템에서 더 많은 메모리를 차지했습니다. 우리는 그 캐시를 발견했습니다. 메모리는 매우 중요한 부분이며 머신에서 더 많은 프...

Admin 2024-6-11

hdfs

CPU LOAD AVRG + D 상태의 프로세스 처리 방법

RHEL 7.6서버(커널 버전 - 3.10.0-957.el7.x86_64)에서 다음 프로세스의 상태를 확인할 수 있습니다 D(사용자에서 실행됨 HDFS). 노트 -D 상태 코드는 프로세스가 중단할 수 없는 절전 상태에 있음을 나타냅니다. ps -eo s,user,cmd | grep ^[RD] D hdfs du -sk /grid/sdj/hadoop/hdfs/data/current/BP-1018134753-10.3.6.170-1530088122990 D hdfs du -sk /grid/sd...

Admin 2024-6-8

hdfs

쉘 스크립트를 사용하여 hdf5 파일 목록을 동일한 이름의 netcdf 파일로 변환

다음과 같이 월별 폴더별로 정렬된 위성 데이터가 포함된 데이터세트 목록이 있습니다. 01 02 03 04 05 06 07 08 09 10 11 12 이러한 폴더는 일별 데이터 폴더로 더 나누어집니다. 예를 들어 첫 번째 달의 경우 01일별 파일은 다음과 같이 폴더에 정렬됩니다. 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29...

Admin 2024-6-8

hdfs

비밀번호 없이 사용자 hdfs로부터 스크립트를 실행하는 방법

rhel 7.6에서 다음 스크립트를 만듭니다. /home/run_tasks Visudo에서 우리는 구성했습니다. %sudo ALL=(ALL:ALL) ALL root ALL=(ALL) ALL hdfs ALL = (ALL) ALL hdfs ALL= (root) NOPASSWD: /home/run_tasks 그리고 ls -ltr /home/run_tasks -rwxrwxrwx 1 hdfs hdfs 6377 Sep 11 2019 /home/run_tasks 그래서 우리가 스크...

Admin 2024-6-6

hdfs

master: ssh: 호스트 마스터 포트에 연결 중 22: 연결이 거부되었습니다.

"start-dfs.sh" 명령을 사용하여 hadoop 클러스터를 시작하려고 하는데 다음 오류가 발생합니다. [마스터]에서 namenode 시작 master: ssh: connect to host master port 22: Connection refused 데이터 노드 시작 master: ssh: connect to host master port 22: Connection refused SSH 상태를 확인한 결과 다음과 같이 반환되었습니다. ssh.service - OpenBSD S...

Admin 2024-6-4

hdfs

ssh: 호스트 localhost 포트 22에 연결: 연결이 거부되었습니다.

나는 hadoop그것을 설치 했고 ssh.hadoopsbin/start-dfs.sh Starting namenodes on [localhost] localhost: ssh: connect to host localhost port 22: Connection refused Starting datanodes localhost: ssh: connect to host localhost port 22: Connection refused Starting secondary namenodes [chbpc-Virtu...

Admin 2024-6-4

hdfs

Hadoop 클러스터 + 설계 디스크 수 및 데이터 노드 시스템의 최소 요구 사항

우리는 HDP 버전 2.6.5를 사용하고 있으며 HDFS 블록 복제는 3입니다. 우리는 블록 복제 = 3이라는 사실을 기반으로 프로덕션 모드에서 데이터 노드 디스크의 최소 요구 사항을 이해하려고 노력했습니다. 프로덕션 클러스터에 대해 이야기하고 HDFS 복제본으로 다시 업그레이드하는 것이므로 = 3 데이터 노드 머신당 최소 디스크 수는 얼마입니까? ...

Admin 2024-6-4

hdfs

사용자 HDFS에서 사용자 및 그룹의 소유자를 찾는 방법

다음과 같이 hdfs 사용자에게 하이브 권한을 부여할 수 있습니다. su hdfs $ hdfs dfs -chown hive:2098 하지만 대신 무엇을 해야 할까요? 하이브와 하이브 그룹의 소유자를 확인하려면? ...

Admin 2024-6-3

hdfs

hdfs에서 마지막 n개 파일을 이동하는 방법

HDFS에 830000개의 파일이 포함된 폴더가 있고 여기에 마지막 "8797" 파일 입력 코드를 HDFS의 다른 폴더로 이동하고 싶습니다. xargs를 사용해 보았지만 제대로 작동하지 않았습니다. 다른 아이디어가 있나요? 이는 모든 파일 간의 정확한 분할 지점입니다. "2021-03-09 15:15" 이후의 파일을 이동하고 싶습니다. -rw-rw-r--+ 3 talend_user talend_group 102013 2021-03-09 15:14 /user/file_1 -rw-rw-r--+ ...

Admin 2024-5-15