pandas
Pandas
ํ๋ค์ค๋ ํ์ด์ฌ์์ ๊ฐ์ฅ ๋๋ฆฌ ์ฌ์ฉ๋๋ ๋ฐ์ดํฐ ๋ถ์ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ก Data Frame ๊ณผ Series ์๋ฃ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํ๋ค.
Series
One-dimensional ndarray with axis labels (including time series).
Ex) df[ํผ์ฒ]
Attributes
Name
description
Series.index
The index (axis labels) of the Series
Methods
name
Description
Series.tolist()
Return a list of the values
Series.iteritems()
Lazily iterate over (index, value) tuples.
Lazily ํ๊ฒ iterate ํ๋ค๋ ๊ฒ์ for ๋ฌธ ๊ฐ์ ๋ฐ๋ณต๋ฌธ์์ Series ์ (idx, val) ํํ์ ํ๋์ฉ ๊บผ๋ด์ฐ๊ธฐ ์ํจ์ธ ๊ฒ
row ๊ฐ index ๊ฐ ๋๋ Series ํน์ฑ์ for idx, val in enumerate():
์์๋ row ์ธ ์ ์๊ธฐ ๋๋ฌธ์ ํ์ํ ๊ฒ ๊ฐ๋ค.
Series.unique()
Return unique values of Series object. type ์ ๋ํ์ด๋ฐฐ์ด์ด๋ค.
DataFrame
Two-dimensional, size-mutable, potentially heterogeneous tabular data.
์ธ๋ฑ์ค์ ์กฐ๊ฑด๋ฌธ์ ๋ฃ์ด์ ์ธ๋ฑ์ค ํ ์ ์์ Ex) results = chipo_orderid_group[chipo_orderid_group.item_price >= 10]
Getting data in/out
csv
Writing to a csv file
Reading frome a csv file
Attributes
Ref) df[ํผ์ฒ] == df.ํผ์ฒ
DafaFrame ์ ์ธ๋ฑ์ฑ ์์ ์กฐ๊ฑด๋ฌธ์ ๋ฃ์ ์ ์๋ค. Ex) df[df.ํผ์ฒ >= num] => df ์ค ์กฐ๊ฑด๋ฌธ์ ํด๋นํ๋ row ๋ง ์ทจํ๋ df ๋ฅผ ๋ฐํ
Name
description
df.shape
Return a tuple representing the dimensionality of the DataFrame. => (how many row, how many ํผ์ฒ)
df.index
return index (row labels) of the df RangeIndex(start = [num], stop = [num], step= [num])
Methods
Command
description
df.value_counts([subset, normalize, ...])
Return a Series containing counts of unique rows in the DataFrame. ๊ฐ์ ํ์ด ๋ช๊ฐ์ธ์ง ๊ฐฏ์์ ๋ด๋ฆผ์ฐจ์ Series ๋ฅผ ๋ฐํํ๋ฉฐ, ์์ ์ซ์ ๋ฟ๋ง ์๋๋ผ, ํด๋น ํ์ ์ด๋ฆ์ผ๋ก ์ธ๋ฑ์ฑํ ์ ์๋ค. ์ธ์๋ก ํผ์ฒ๋ฅผ ์จ๋ ๋๊ณ df[ํผ์ฒ] ๋ก ์ธ๋ฑ์ฑํ df ์ ์ธ์์๋ ๋งค์๋๋ฅผ ๊ฑธ์ด๋ ๋๋ค.
df.info()
Print a concise summary of a DataFrame.
df.head([n])
Return the first n rows
Group DataFrame using a mapper or by a Series of columns.
df.apply()
์ด๊ฑด ๋ญ... apply ์์์ ์ ์ฉ๋๋ ํจ์๊ฐ ๋ ์ค์ํ๋ฐ ๋ฐ๋ก ์จ์ผํ๋ ๊ณ ๋ฏผ์ด๋ค ๋ฐ์ดํฐ์ ์ฒ๋ฆฌ๋ฅผ ์ํด ์ฌ์ฉํจ
df.sort_values([by, ascending...])
Sort by the values along either axis.
Df.drop_duplicates()
Return DataFrame with duplicate rows removed.
df.fillna()c
๊ฒฐ์ธก์น๋ค์ ์ธ์ ๊ฐ์ผ๋ก ๋ฐ๊ฟ์ค๋ค.
df.corr()
์๊ด๊ด๊ณ ํจ์ ์ธ์๋ก method ๊ฐ ์๊ณ 'pearson' ์ ๋ง์ด ์ด๋ค.
Property
Command
description
df.iloc[]
์์น ์ ์๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ธ๋ฑ์ฑํ๋ค [] ๋ ์ด(column) ์ ์ ํํ์ง๋ง, .loc, .iloc ์ ํ(row) ๋ฅผ ์ ํํ๋ค
DataFrame.groupby
df.groupby([by]) ํจ์์ ์ํด ์์ฑ๋ ๊ฐ์ฒด. ์ธ์ ๋ณ๋ก ๊ทธ๋ฃนํ๋์ด ์์ผ๋ฉฐ, ์ธ์ ๋ณ๋ก ๊ทธ๋ฃน๋ ๊ฒ๋ค์ ์ด๋ค ํผ์ฒ๋ฅผ ์ด๋ค ์ฐ์ฐํ ๊ฒฐ๊ณผ๋ฅผ value ๋ก ๊ฐ์ง ๊ฒ์ธ์ง
df.groupby('๊ทธ๋ฃนํ์ธ์')[๋์ ํผ์ฒ].์ด๋ค์ฐ์ฐํจ์()
Methods
name
description
Count()
๊ทธ๋ฅ ๊ฐฏ์ ์ (์ค๋ณต์ ์๊ด์์ด ๊ทธ๋ฅ ํ์ด ๋ช๊ฐ์ธ์ง ์ธ๋ ๋ฏ?)
Sum()
๋์ ํผ์ฒ์ val ๋ค์ ๋์ ํฉ ํจ
Numpy
array ๊ฐ๋ ์ผ๋ก ๋ณ์๋ฅผ ์ฌ์ฉํ๋ค. ๋ํ์ด ๋ฐฐ์ด์ ๋ฐ์ดํฐ ๋ถ์์์ ์ฐ๋ ๊ธฐ๋ณธ ์๋ฃ๊ตฌ์กฐ. ๋ฒกํฐ, ํ๋ ฌ ๋ฑ์ ์ฐ์ฐ์ ์ฝ๊ณ ๋น ๋ฅด๊ฒ ํ๊ธฐ ์ํด ๋ง๋ค์ด์ง ํ์ด์ฌ ๋ผ์ด๋ธ๋ฌ๋ฆฌ
Matplotlib
๋ฐ์ดํฐ๋ฅผ ๊ทธ๋ํ๋ก ์๊ฐํํด์ฃผ๋ ๋ผ์ด๋ธ๋ฌ๋ฆฌ
matplotlib.pyplot
matplotlib.pyplot is a state-based interface to matplotlib
state-based ๋ฐฉ์ (interface) ๊ณผ object-oriented ๋ฐฉ์์ด ์๋๋ฐ ๋งํฌ ์ ์ฐจ์ด์ ์ ์ค๋ช ํด์ฃผ๋๋ฐ ์์ง ๊ฐ์ด ์กํ๋ ์ ๋์ผ ๋ฟ, ์๋ฒฝํ๊ฒ ์ดํด๋ ์ ๋จ
Last updated