Модуль Pandas

определение
Pandas - это высокоуровневая библиотека для анализа данных, построенная на низкоуровневой библиотеки NumPy.

Основной инструмент Pandas основан на классах Series, DataFrame, Panel.

  • Series — это небольшой объект, похожий на одномерный массив, который не изменяет свои размеры;

  • DataFrame — это объект, обладающий табличной структурой данных, который может изменять свои размеры;

  • Panel — это объект, который имеет структуру трехмерного массива, способного изменять свои размеры.

Series
pandas.Series(data, index, dtype, name, copy)

data — входные данные: списки, другие объекты DataFrame, Series, массивы NumPy и др.;

index — строковые метки для разделения данных;

dtype — является необязательным параметром, указывает типы данных столбцов;

name - указывается имя для Series

copy — применяется при копировании данных.


Объект Series

import pandas as pd

d = {'a': 1, 'b': 2, 'c': 3}
ser = pd.Series(data=d, index=['a', 'b', 'c'])
DataFrame
pandas.DataFrame(data, index, columns, dtype, copy)

  • data — входные данные: списки, другие объекты DataFrame, Series, массивы NumPy и др.;

  • index — строковые метки для разделения данных;

  • columns — применяется для подписей столбцов;

  • dtype — является необязательным параметром, указывает типы данных столбцов;

  • copy — применяется при копировании данных.

Объект DataFrame

import pandas as pd
import numpy as np

df = pd.DataFrame({
     “Country“: [ `Austria`, `Sweden`, `Poland`],
     “Capital“: [`Vienna`, `Stockholm`, `Warsaw`],
     “Catholics %“: [27, 28, 29]
})

print(df)