spark 예제 실행

다음 단계는 아파치 스파크가 클러스터에 액세스하는 방법을 알려주는 원하는 스파크 구성으로 스파크 컨텍스트 개체를 만드는 것입니다. 단어 카운트 예제의 아래 코드 줄은 이 작업을 수행합니다 – Spark 단계별 단어 카운트 예제를 이해해 보겠습니다 – 명령은 작업이 끝날 때까지 상태를 계속 인쇄하거나 control-C를 누릅니다. 클러스터 모드에서 스파크 제출 프로세스를 종료해도 클라이언트 모드에서와 마찬가지로 Spark 응용 프로그램이 종료되지않습니다. 실행 중인 응용 프로그램의 상태를 모니터링하려면 원사 응용 프로그램 -list를 실행합니다. Spark를 새 마이너 CDH 릴리스로 업그레이드할 때마다 이 수동 업로드를 다시 수행합니다(예: 5.2.0을 포함한 모든 CDH 5.2.x 릴리스). 스파크를 구성하는 가장 쉬운 방법은 $SPARK_HOME/conf/spark-defaults.conf를 설정하는 것입니다. 우리가 스파크 튜토리얼로 시작하기 전에, 우리는 우리의 시스템에 스파크를 배포 할 수있는 방법을 이해하자 – 우리는 전체 단어 카운트 프로그램을 실행하는 대신 스파크 쉘을 사용하여 아파치 스파크의 단어 카운트 예제를 제출합니다 – 예제 응용 프로그램은 Py에서 제공됩니다 톤. 예를 들어 위의 줄 ~/.bashrc 파일을 추가하고 저장합니다. PATH 변수를 설정하면 위치 /usr/local/spark/bin에서 스파크 실행 되는 저장소가 찾습니다.

“로컬”- 이 매개 변수는 스파크 응용 프로그램을 연결하는 마스터 URL을 나타냅니다. 스파크 제출을 실행하려면 컴파일된 스파크 응용 프로그램 JAR이 필요합니다. 다음 섹션에서는 스파크와 함께 패키지된 샘플 JAR, SparkPi를 사용합니다. Pi 값에 대한 근사치를 계산합니다. (이 스파크 자습서에서는 spark-1.3.1-bin-hadoop2.6 버전을 사용 하 여 sparkwordcount-1.0-SNAPSHOT-jar-와-dependencies.jar 대상 디렉토리에 만듭니다. 첫 번째 단계는 다음 줄을 추가하여 필요한 스파크 클래스를 Spark 프로그램에 명시적으로 가져오는 것입니다 . 명령 사용: 아파치 스파크의 단어 수의 예를 동일한 hadoop MapReduce뿐만 아니라 클러스터의 마스터 URL인 spark://23.195.26.187:7077 살펴보겠습니다. /usr/local/spark-이 매개 변수는 아파치 스파크의 홈 디렉토리를 나타냅니다. 아파치 스파크는 스칼라 프로그래밍 언어를 통해 사용되기 때문에 스칼라를 설치하여 독립실행형 모드로 스파크 클러스터 설치를 진행해야 합니다.

다음 명령을 사용하여 스칼라가 설치되어 있는지 확인합니다 – 파일 압축을 풀고 SCALA_HOME 환경 변수를 설정한 다음 스칼라 설치 지침과 같이 경로에 추가합니다. 예: 다운로드 폴더에 .tar.gz 파일이 있는지 확인합니다. 스파크를 설치하려면 다음 명령을 사용하여 타르 파일을 추출합니다: 스파크는 파이썬 API도 제공합니다. Python 인터프리터에서 스파크를 대화식으로 실행하려면 bin/pyspark를 사용하세요: 클러스터에서 스파크 응용 프로그램을 시작하는 가장 일반적인 방법은 셸 명령 스파크 제출을 사용하는 것입니다. 스파크 제출 셸 명령을 사용하는 경우 스파크 제출 셸 스크립트가 단일 인터페이스를 통해 클러스터 관리자를 사용하기 때문에 스파크 응용 프로그램은 각 클러스터에 대해 특별히 구성할 필요가 없습니다. Spark-submit 스크립트에는 아파치 스파크 응용 프로그램에서 사용하는 리소스를 제어하는 데 도움이 되는 여러 플래그가 있습니다. 스파크 제출 플래그는 스파크 컨텍스트 개체에 구성을 동적으로 공급합니다. 클러스터 쓰기에 사전 설치된 아파치 스파크와 Hadoop 예제를 실행하고 스파크 쉘 REPL을 사용하여 클라우드 Dataproc 클러스터에서 직접 스파크 스칼라 “워드 카운트”맵을 실행하면 클라우드 Dataproc 마스터 노드는 표준 아파치와 실행 가능한 항아리 파일이 포함되어 있습니다 하두프와 스파크 의 예. Cloudera Manager를 사용하는 경우 스파크 어셈블리 JAR은 초기 설치 시 자동으로 HDFS에 업로드됩니다.

Comments are closed.