python dataframe 예제

출력: fillna(), replace() 및 보간() 을 사용하여 누락된 값을 채우기 : 데이터 집합에서 null 값을 채우기 위해 fillna(), replace() 및 보간() 함수를 사용하여 이러한 함수는 NaN 값을 자체 값으로 대체합니다. 이러한 모든 함수는 DataFrame의 데이터 집합에서 null 값을 채우는 데 도움이 됩니다. 보간() 함수는 기본적으로 데이터 프레임에서 NA 값을 채우는 데 사용되지만 값을 하드 코딩하는 대신 누락된 값을 채우기 위해 다양한 보간 기술을 사용합니다. 파이썬에서 팬더 DataFrame을 만들려면이 일반 템플릿을 따를 수 있습니다 : 데이터를로드하는 즉시 한 값 또는 다른 값으로 그룹화 한 다음 몇 가지 계산을 실행할 수 있습니다. 이 블로그에는 파이썬 팬더의 요약, 집계 및 데이터 그룹화와 같은 또 다른 게시물이 있습니다. 이러한 경우 런타임에 만들어지는 lambda 함수 또는 익명 함수로 작업했습니다. 그러나 사용자 고유의 함수를 작성할 수도 있습니다. 예: 열 또는 여러 열을 삭제하려면 열의 이름을 사용하고 “축”을 1로 지정합니다. 또는 아래 예제에서와 같이 `축`에 대한 필요성을 줄이는 팬더에 `열` 매개 변수가 추가되었습니다. 드롭 함수는 열을 제거한 새 DataFrame을 반환합니다. 실제로 원래 DataFrame을 편집하려면 “인플레이스” 매개 변수를 True로 설정할 수 있으며 반환된 값이 없습니다. Python에 데이터가 있으면 데이터가 로드된 것을 확인하고 예상 된 열과 행이 있는지 확인합니다.

버전 0.23.0에서 변경 : 데이터가 받아쓰기인 경우 열 순서는 Python 3.6 이상에 대한 삽입 순서를 따릅니다. 이것은 파이썬 코드가 우리의 자동차 예제에 대해 어떻게 보일지 입니다 : 팁 : 파이썬의 함수에 대해 더 알고 싶다면이 파이썬 함수 자습서를 복용하는 것이 좋습니다. 팬더의 데이터 선택 방법은 매우 유연합니다. 이 사이트의 또 다른 게시물에서, 나는 팬더의 핵심 선택 방법에 대해 광범위하게 작성했습니다 – 즉 iloc 및 loc. 자세한 정보와 마스터 선택을 위해, 그 게시물을 읽어 보시기 만. 이 예제에서는 열 및 행 선택에 대한 기본 방법을 살펴보겠습니다. 이 작업은 전달된 값이 일치하는 위치를 나타내기 위해 부울 데이터 프레임을 반환하는 .isin() 메서드를 사용하여 수행됩니다. pivot_table 메서드에 전달되는 추가 인수 aggfunc를 참고하십시오. 이 인수는 여러 값을 결합하는 데 사용되는 집계 함수를 사용했음을 나타냅니다. 이 예제에서는 평균 함수가 사용되는 지 명확하게 확인할 수 있습니다. 이제 파이썬의 DataFrames는 매우 유사합니다 : 팬더 라이브러리와 함께 제공되며 잠재적으로 다른 유형의 열이있는 2 차원 레이블이 붙은 데이터 구조로 정의됩니다.

다음은 Pandas의 주요 데이터 구조를 사용하여 생산성을 빠르게 높일 수 있도록 도와주는 몇 가지 예입니다. Kaggle에서 CSV 파일을 다운로드하거나 여기에서 직접 다운로드할 수 있습니다. 데이터는 멋지게 서식이 지정되어 있으며 처음에는 Excel에서 열어 미리 보기를 얻을 수 있습니다: 구조화 된 배열을 사용하면 사용자가 명명 된 필드로 데이터를 조작 할 수 있습니다: 아래 예제에서는 세 개의 tuples의 구조화 된 배열이 만들어집니다. 각 튜플의 첫 번째 요소는 foo라고 하며 int 형식이 되고 두 번째 요소는 bar로 명명되고 float가 됩니다.

Comments are closed.