Pandas Series Blog#

প্রয়োজনীয় data-set যা এই post এ ব্যবহার করা হয়েছে DOWNLOAD

Pandas একটি পাইথন প্যাকেজ যা “রিলেশনাল” বা “লেবেলযুক্ত” ডেটা সহজ এবং স্বজ্ঞামূলকতার সঙ্গে কাজ করার জন্য fast, flexible, এবং expressive ডাটা স্ট্রাকচার প্রদান করে। python প্রোগ্রামিং এ real-world ডাটা analysis এর জন্য high-level building block বা structured data তৈরিতে pandas খুবই গুরুত্বপূর্ণ। pandas একটি open-source পাইথন package.

পান্ডাস বিভিন্ন ধরণের ডেটার জন্য বেশ উপযোগী:

SQL table বা Excel spreadsheet এ Tabular data এর সঙ্গে heterogeneously-typed columns এ।
Ordered এবং unordered (fixed-frequency প্রয়োজন নাই) time series data এ।
Arbitrary matrix data (homogeneously বা heterogeneous ধরনের ডাটা) এর সঙ্গে row এবং column labels এর।
যে কোন ধরনের observational / statistical data sets এ।তাছাড়া pandas ডেটা স্ট্রাকচারে রাখার জন্য ডেটা লেবেল লাগে না।

pandas নিম্নলিখিত তিনটি ডেটা স্ট্রাকচার নিয়ে কাজ করে -

Series
DataFrame
Panel

ডেটা স্ট্রাকচার	Dimension(মাত্রা)	Description
Series	1	1D labeled homogeneous array, sizeimmutable.
DataFrames	2	General 2D labeled, size-mutable tabular structure with potentially heterogeneously typed columns.
Panels	3	General 3D labeled, size-mutable array.

pandas লাইব্রেরিতে Numpyএর বেশিরভাগ কার্যকারিতা ব্যবহার করা হয়। pandas DataFrame এবং Panel ndarray ব্যবহার করে।

Pandas এর ব্যবহার হয় :

Fast এবং efficient DataFrame object এর সঙ্গে default and customized indexing তৈরিতে।
বিভিন্ন file formate থেকে memory তে data load করতে ।
missing data এর জন্য data alignment এবং integrated করতে।
data sets কে Reshaping এবং pivoting করতে।
large data set কে Label-based slicing, indexing এবং subsetting করতে।
একটি data structure এর columns বা rows কে delete বা insert করতে।
Group by data এর জন্য aggregation and transformations করতে।
High performance এ merging এবং joining করতে।
Time Series functionality তে।

Installation#

Pandas installation এর সবথেকে সহজ উপাই Anaconda distribution। একটি cross platform distribution যা data analysis এবং scientific computing এর জন্য ব্যবহার করা হয়।

আমরা anaconda install করে pipline ব্যবহার করে pandas install করব। আমি মনে করতেছি আপনারা anaconda install করেছেন এবং anaconda-prompt ব্যবহার করে pip install pandas দ্বারা pandas install সম্পূর্ণ করেছেন।

online এর help নিয়ে খুব তাড়াতাড়ি installation শেষ করুন তার পর আবার blog এ ফিরে আসুন ।

Series#

আমরা আগেই জেনেছি যে Series একটি আক-মাত্রা বিশিষ্ট labeled array যা যেকোনো data type এর ডেটা store করতে পারে। আমরা labeled array বলছি , কারন Series এ সকল 1-dimensional data থাকে, এর প্রতিটি data এর axis label গুলোকে index বলা হয়।

pandas.Series এর syntax pandas.Series( data, index, dtype, copy)

parameter number	Parameter name	Description
1	data	data takes various forms like ndarray, list, constants.
2	index	Index values must be unique and hashable, same length as data. Default np.arrange(n) if no index is passed.
3	dtype	dtype is for data type. If None, data type will be inferred.
4	copy	Copy data. Default False

without importing Dataset#

আমরা List এবং Dictionary ব্যবহার করে series তৈরি করব তারপর data set ব্যবহার করে series তৈরি করব। আমার এর পোস্টটি implementation এ main focus দিয়ে তৈরী ।

pandas নিয়ে যে কোন কাজ করার জন্য padas কে import করে নেয়। pandas নামটি include করে কোন execution করার জন্য একটা sort name define kori syntax as pd । Series() class কে call করার মাধমে series তৈরী করা হয়। প্রথমে আমরা একটা blank Series তৈরি করবো।

import pandas as pd

pd.Series() # empty series

python এর list তৈরী করে তা একটা series এ রুপান্তর করি। আপনারা অন্য একটি list তৈরী করে try করুন।

# List
ice_cream= ["chocolate", "vanila", "strawbarry", "Run Raisin"]

import pandas as pd

s = pd.Series(ice_cream)
print(s)

OUTPUT:


0	chocolate
1	vanila
2	strawbarry
3	Run Raisin

dtype: object

এইবার numpy এর দ্বারা array তৈরী করে তা একটি series এ রুপান্তর করি। এর জন্য numpy কে import করতে হবে, সুবিধার জন্য as np define করি। numpy এর arange function, python এর range function এর মত । arange function array তৈরি করে। np.arange(start, end, difference)

import numpy as np
arr = np.arange(1,5)
arr2 = np.arange(1,9,2)

import pandas as pd
ser = pd.Series(data=arr)
ser2 = pd.Series(data=arr, index=arr2)

print("series1", ser)
print("series2", ser2)

OUTPUT:

series1


0	1
1	2
2	3
3	4

dtype: int32

series2


1	1
3	2
5	3
7	4

dtype: int32

boolean value ব্যবহার করে ও আমরা series তৈরি করতে পারি।

registration= [True, False, True, False]

import pandas as pd
s2 = pd.Series(registration)
print(s2)

OUTPUT:


0	True
1	False
2	True
3	False

dtype: bool

এখন python এর Dictionary তৈরী করে তা একটা series এ রুপান্তর করি। dictionary এর key কে index এবং value কে data হিসেবে ব্যবহার করবো। আপনারা অন্য একটি Dictionaryতৈরী করে try করুন।

data = {"Aardvark" : "An animal", "Cyan" : "A color", "Nothing" : "None"}

import pandas as pd
s3 = pd.Series(data)

print(s3)

OUTPUT:


Aardvark	An animal
Cyan	A color
Nothing	None

dtype: bool

এখন আমরা pandas.Series এর কিছু attribute দেখে নেয়। যেমন series এর সব value বা সব index বা series এর datatype.

data = {"Aardvark" : "An animal", "Cyan" : "A color", "Nothing" : "None"}

import pandas as pd
s3 = pd.Series(data)

print(s3.values)
print(s3.index)
print(s3.dtype)

OUTPUT:

['An animal' 'A color' 'None']

Index(['Aardvark', 'Cyan', 'Nothing'], dtype='object')

object

pandas excel এর মত total calculation করতে পারে।defaultly সব calculation value নিয়ে ঘটে। আমরা বিশেষ কিছু method দেখব।

sum() function দ্বারা total যোগফল বাহির করা যায়।

product() function দ্বারা একটি কে অপরটি দ্বারা গুন করা গুনফল বাহির করা যায়।

mean() function দ্বারা গড় মান বাহির করা যায়।

min() function দ্বারা সব থেকে ছোট মান বাহির করা যায়।

max() function দ্বারা সব থেকে বড় মান বাহির করা যায়।

import pandas as pd
ser = pd.Series([1,2,3,4],index = ['USA', 'Germany','USSR', 'Japan'])   

print(ser.sum())
print(ser.product())  # multiply eatch other
print(ser.mean())
print(ser.min())
print(ser.max())

OUTPUT:

এখন আমরা একটা series কে অন্য series এর সঙ্গে concatination করবো আর আমাদের প্রয়োজনীয় series তৈরী করবো। ঠাণ্ডা মাথায় চিন্তা করুন আমার বিশ্বাস আপনারা নিজেরাই পুরটা বঝতে পারবেন।

import numpy as np
import pandas as pd

ice_cream= ["chocolate", "vanila", "strawbarry", "Run Raisin"]
s = pd.Series(ice_cream)

lottery= [4,115,23,42]
s1 = pd.Series(lottery)

registration= [True, False, True, False]
s2 = pd.Series(registration)

webster = {"Aardvark" : "An animal", "Banana" : "A delicious fruit", "Cyan" : "A color", "Nothing" : "None"}
s3 = pd.Series(webster)

s4 = pd.Series(ice_cream,lottery)
s5 = pd.Series(data= lottery, index = registration)
s6 = pd.Series(index = webster, data = registration) 

print(s4,"\n")
print(s5,"\n")
print(s6,"\n")

OUTPUT:


4	chocolate
115	vanila
23	strawbarry
42	Run Raisin

dtype: object


True	4
False	115
True	23
False	42

dtype: int64


Aardvark	True
Banana	False
Cyan	True
Nothing	False

dtype: bool

with importing Dataset#

pandas.Series এর এই অংশতে আমরা .csv file include করে তা থেকে series তৈরি করবো। pandas library তে pandas.read_csv দ্বারা csv ফাইল directory থেকে read করা হয়।

১৮ টির বেশি file type pandas read করতে পারে। এই post এ আমরা comma-separated values file নিয়ে কাজ করবো। read_csv এর প্রায় ৪৯ টির মত parameter আছে। এর মধ্যে filepath_or_buffer তা major.অন্য parameter গুল প্রয়োজন হইলে ব্যবহার করতে হয়।

dataset টি source code এর একই path এ থাকলে just dataset টির নাম উল্লেখ করলেই pandas read করতে পারবে। এর যদি dataset টি অন্য path এ থাকে বা net থেকে read করতে হয় তবে একটু বেশি কষ্ট করতে হবে।

আমরা Beton এবং Salary ২ টি demo dataset ব্যবহার করবো। আপনারা অবশ্যয় dataset ২ টি download করে নিজারা try করবেন।

প্রয়োজনীয় data-set যা এই post এ ব্যবহার করা হয়েছে DOWNLOAD

যদি code এ কোন update করতে না ইত্তছে করে তা হইলে যে directory তে .py file create করেছেন .csv ফাইল download করে same directory তে রাখুন।

.read_csv()#

সবার প্রথম pandas import করে নেয়। এখন read_csv এর দ্বারা dataset ফাইল থেকে variable এ store করি। for a basic purpose আমরা read_csv ar ২ টা parameter ব্যবহার করবো। file path এবং use colunms. এখন টা হইলে আমরা dataset থেকে data read করি।

import pandas as pd

#[["salary","Age"]] restructured dataset's columns
salary = pd.read_csv("salary.csv", usecols = ["Age","Salary"])[["Salary","Age"]] 

#squeeze convert from dataframe to series
beton = pd.read_csv("Beton.csv", usecols = ["Salary"], squeeze = True) 

beton2 = pd.read_csv("Beton.csv")

print("salary: ", type(salary))
print("beton: ", type(beton))
print("beton2: "type(beton2))

OUTPUT:

salary: <class 'pandas.core.frame.DataFrame'>
beton: <class 'pandas.core.series.Series'>
beton2: <class 'pandas.core.frame.DataFrame'> 

আমরা usecols parameter এ dataset এর যে সব columns use করবো সেই সব columns এর নাম উল্লেখ করবো। data set এর heading এ যে নাম আসে same নাম দিতে হবে।pandas এ csv file কে mainly DataFrame এ নিয়ে কাজ করা হয়।

আমরা চাইলে columns গুলোকে আগে বা পিছে নিতে পারি। মানে columns এর position change করতে পারি। pd.read_csv(“path”, usecols=[“col1”,”col2”]) এই তার দ্বারা আমাদের dataset read complete.এখন আমাদের value তে col1 এর পর col2 এই structured এ ডাটা store হয়েছে। শেষ এ restructered define করতে পারি। [[“col2”,”col1”]] এখনpd.read_csv(“path”, usecols=[“col1”,”col2”])[[“col2”,”col1”]] দ্বারা col2 এর পর col1 এই structured এ ডাটা store হবে।

.head()#

.head() এর দ্বারা defaultly প্রথম ৫ টা row এর ডাটা দেখতে পারা যায়। বিশাল dataset এর overview নিতে চাইলেও যদি সম্পূর্ণ dataset print করা হয় তা হইলে ব্যাপারটা যেমন সময় সাপেক্ষ তেমনই তার জন্য memory আর execution এ problem হয়। dataset এর sort overview নিতে তাই .head() ব্যবহার করা হয়। .head() এ যত number define করা হয় সেই কয়টা row print হয়।

import pandas as pd

beton2 = pd.read_csv("Beton.csv")
print(beton2.head(),"\n\n")
print(beton2.head(3))

OUTPUT:

	YearsExperience	Salary
0	1.1	39343.0
1	1.3	46205.0
2	1.5	37731.0
3	2.0	43525.0
4	2.2	39891.0

	YearsExperience	Salary
0	1.1	39343.0
1	1.3	46205.0
2	1.5	37731.0

.tail()#

.head() যেমন প্রথম data গুলো দেখায় .tail() তেমনই শেষ data গুলো দেখায়।

output নিজেরাই try করে দেখুন।

import pandas as pd

beton2 = pd.read_csv("Beton.csv")
print(beton2.tail(),"\n\n")
print(beton2.tail(10))

python এর কিছু built-in Function এর ব্যবহার :#

আমি মনে করি আপনারা python language এর ধারনা রাখেন। তাই এই topic নিয়ে কিছু আলোচনা করলাম না। আসা করি আপনাদের বুঝতে problem হবে না।

এই topic টি আপনারা নিজেরাই বুঝে run করবেন।

import pandas as pd

beton2 = pd.read_csv("Beton.csv")

print(len(beton2))   # len(series) give total number of row
print(type(beton2))
print(dir(beton2))  # see all method can be use with this data frame

print(sorted(beton2))  #sort(dataFrame) sorted data assiending orderd and create a list
print(type(sorted(beton2)))

print(list(beton2))          # create a list of data frame

print(dict(beton2))       # create a dictionary of data frame

print(max(beton2))        # maximum number
print(min(beton2))        # minimum number

.is_unique#

dataset এ duplicate value আসে কি না। বা dataset এ একই কোন value এক এর অধিক আসছে কি না তা check করতে .is_unique ব্যবহার করা হয়।

.is_unique এর output booolen type হয়ে থাকে। যদি True হয় তবে কোন duplicate value নেই। আর যদি output টা False হয় তা হইলে duplicate value আছে ।

import pandas as pd
beton = pd.read_csv("Beton.csv", usecols = ["Salary"], squeeze = True)  #squeeze convert from dataframe to series

print(beton.is_unique) # boolen compare unique value

OUTPUT:

True

.is_unique function টি series এ কাজ করে। dataFrame এ কাজ করে না। তাই নিচের code টায় error আসবে।

import pandas as pd
beton2 = pd.read_csv("Beton.csv") 

print(beton2.is_unique) # boolen compare unique value

OUTPUT:

AttributeError: 'DataFrame' object has no attribute 'is_unique'

.ndim#

আমরা জানি series 1-Dimention আর DataFrame 2-Dimention. আমরা .ndim এর দ্বারা dataset টা Series না কি DataFrame তা বঝতে পারা যায়। যদি output 1 হয় তবে 1-Dimention বা Series. আর যদি output 2 হয় তবে 2-Dimention বা DataFrame.

import pandas as pd

#squeeze convert from dataframe to series
beton = pd.read_csv("Beton.csv", usecols = ["Salary"], squeeze = True) 
beton2 = pd.read_csv("Beton.csv")

print(beton.ndim)
print(beton2.ndim)

OUTPUT:

1 
2 

.shape#

dataset এ কত গুলো rows আর columns আছে তা .shape এর দ্বারা বাহির করা যায়। output এ (rows, columns) এই রুপে দেখা যায়।

import pandas as pd

#squeeze convert from dataframe to series
beton = pd.read_csv("Beton.csv", usecols = ["Salary"], squeeze = True) 
beton2 = pd.read_csv("Beton.csv")

print(beton.shape)   # represent (row,column)
print(beton2.shape)

OUTPUT:

(30,)
(30, 2)

.size#

dataset এ null সহ total কতগুল value আছে তা .size এর দ্বারা দেখা যায়। output এ সব row এবং column এর total value count এর মান numeric এ দেখা যায়।

import pandas as pd

#squeeze convert from dataframe to series
beton = pd.read_csv("Beton.csv", usecols = ["Salary"], squeeze = True) 
beton2 = pd.read_csv("Beton.csv")

print(beton.size)   # # total value include null
print(beton2.size)

OUTPUT:

30
60 

.sort_values()#

যদি কখনো dataset এর value sort করে দেখতে হয় মানে ascending order বা descending order এ নিতে হয় তবে .sort_values() ব্যবহার করে তা করা যায়। defaultly ascending parameter টা True থাকে।

import pandas as pd

#squeeze convert from dataframe to series
beton = pd.read_csv("Beton.csv", usecols = ["Salary"], squeeze = True) 
beton2 = pd.read_csv("Beton.csv")


print(beton2.sort_values("Salary").head(4),'\n')   # ascending ordered
print(beton.sort_values().head(4),'\n')   # ascending ordered
print(beton.sort_values(ascending = False).tail(3))     # descending ordered

OUTPUT:

	YearsExperience	Salary
2	1.5	37731.0
0	1.1	39343.0
4	2.2	39891.0
3	2.0	43525.0


2	37731.0
0	39343.0
4	39891.0
3	43525.0

Name: Salary, dtype: float64


4	39891.0
0	39343.0
2	37731.0

Name: Salary, dtype: float64

inplace Parameter#

আমরা সবাই জানি যে যদি variable এ কোন operation ঘটে তাহলে আমাদের main data-set এ কোন change ঘটবে না। কিন্তু inplace Parameter ব্যবহার করে আমরা instandly variable এর change বা execution এর change টা কে data-set এর real-value তেও change ঘটাতে পারি। by-Defaultly inplace = False থাকে।

import pandas as pd

salary2 = pd.read_csv("salary.csv", usecols = ["Salary"], squeeze = True)
print(salary2)

print(salary2.sort_values(ascending = False, inplace = True))
print(salary2)

OUTPUT:


0	72000.0
1	48000.0
2	54000.0
3	61000.0
4	NaN
5	58000.0
6	52000.0
7	79000.0
8	83000.0
9	67000.0

Name: Salary, dtype: float64 None


8	83000.0
7	79000.0
0	72000.0
9	67000.0
3	61000.0
5	58000.0
2	54000.0
6	52000.0
1	48000.0
4	NaN

Name: Salary, dtype: float64

.sort_index()#

sort_index() টা অনেকটা sort_values() এর মত। sort_index() দ্বারা data-set এর index কে ascending বা deascending order এ sort করা যায়।

import pandas as pd

salary2 = pd.read_csv("salary.csv", usecols = ["Salary"], squeeze = True)
print(salary2)

print(salary2.sort_index(ascending = False, inplace = True))
print(salary2)

OUTPUT:


0	72000.0
1	48000.0
2	54000.0
3	61000.0
4	NaN
5	58000.0
6	52000.0
7	79000.0
8	83000.0
9	67000.0

Name: Salary, dtype: float64 None


9	67000.0
8	83000.0
7	79000.0
6	52000.0
5	58000.0
4	NaN
3	61000.0
2	54000.0
1	48000.0
0	72000.0

Name: Salary, dtype: float64

in#

data-set এ কাঙ্ক্ষিত data আছে কি নাই টা in ব্যবহার করে check করে নিতে পারেন। যদি data টি data-set এ থেকে থাকে তা হইলে output True এর যদি না থাকে তা হইলে output False আসবে।

import pandas as pd

salary2 = pd.read_csv("salary.csv", usecols = ["Salary"], squeeze = True)
print(salary2)

print(67000.0 in salary2)
print(67000.0 in salary2.values)
print(2 in salary2)

OUTPUT:


0	72000.0
1	48000.0
2	54000.0
3	61000.0
4	NaN
5	58000.0
6	52000.0
7	79000.0
8	83000.0
9	67000.0

Name: Salary, dtype: float64


False
True
True

index_col parameter#

এতক্ষণ আমরা default index নিয়ে কাজ করছি but এখন আমরা দেখব কেমন করে data-set এর একটি column কে index এ রূপান্তর করা যায়। এর জন্য pd.read_csv তে একটা extra parmeter ব্যবহার করতে হবে output index_col = “column এর নাম”

import pandas as pd
salaryy = pd.read_csv("salary.csv", index_col = "Salary", usecols = ["Age","Salary"] , squeeze = True)
print(salaryy)

OUTPUT:

Salary


72000.0	44.0
48000.0	27.0
54000.0	30.0
61000.0	38.0
NaN	40.0
58000.0	35.0
52000.0	NaN
79000.0	48.0
83000.0	50.0
67000.0	37.0

Name: Age, dtype: float64

.get()#

.get() ব্যবহার করে আমরা data-set এর index define করে উক্ত index এর value পেতে পারি। but যদি আমরা এমন কোন index define করি যা data-set এ নাই, তা হইলে আমরা error face করব। তাই .get() এ default parameter ব্যবহার করব। .get() এ ২টা parameter: key, default. key= “columns name” আর default=”data না পাইলে যে কোন কিছু comment” দিতে পারেন, যা error এর পরিবর্তে যদি data না থাকে তবে দেখতে পাবেন।

import pandas as pd
salaryy = pd.read_csv("salary.csv", index_col = "Salary", usecols = ["Age","Salary"] , squeeze = True)
print(salaryy,"\n")

print(salaryy.get(key = [61000.0, 52000.0], default = "This is not a salary"),"\n")

print(salaryy.get(key = 200 , default = "This is not a salary"),"\n")

OUTPUT:

Salary


72000.0	44.0
48000.0	27.0
54000.0	30.0
61000.0	38.0
NaN	40.0
58000.0	35.0
52000.0	NaN
79000.0	48.0
83000.0	50.0
67000.0	37.0

Name: Age, dtype: float64

Salary


61000.0	38.0
52000.0	NaN

Name: Age, dtype: float64

This is not a salary

Math Methods#

dataseries.count() : total কতগুলো data বা row আছে তা .count() এর দ্বারা দেখতে পারা যায়। NaN বা blank data .count() এ count করে না।

import pandas as pd
salaryy = pd.read_csv("salary.csv", index_col = "Salary", usecols = ["Age","Salary"] , squeeze = True)
print(salaryy.count())

OUTPUT:

len(dataseries) : len(series) method টা অনেকটা .count() এর similar,কিন্তু len() NaN বা blank data সহ সমস্ত data এর length count করে।

import pandas as pd
salaryy = pd.read_csv("salary.csv", index_col = "Salary", usecols = ["Age","Salary"] , squeeze = True)
print(len(salaryy))

OUTPUT:

dataseries.sum() : dataseries এর data যদি numeric হয় তা হইলে আমরা .sum() ব্যবহার করে total যোগফল বাহির করতে পারি।

import pandas as pd
salaryy = pd.read_csv("salary.csv", index_col = "Salary", usecols = ["Age","Salary"] , squeeze = True)
print(salaryy.sum())

OUTPUT:

349.0

dataseries.mean() : dataseries এর data যদি numeric হয় তা হইলে আমরা .mean() ব্যবহার করে total data এর গড় বাহির করতে পারি।

import pandas as pd

salaryy = pd.read_csv("salary.csv", index_col = "Salary", usecols = ["Age","Salary"] , squeeze = True)
print(salaryy.mean())

OUTPUT:

38.77777777777778

dataseries.std() : dataseries এর data যদি numeric হয় তা হইলে আমরা .std() ব্যবহার করে total data এর standard deviation বাহির করতে পারি।

import pandas as pd

salaryy = pd.read_csv("salary.csv", index_col = "Salary", usecols = ["Age","Salary"] , squeeze = True)
print(salaryy.std())

OUTPUT:

7.693792591722527

dataseries.min() : dataseries এর data যদি numeric হয় তা হইলে আমরা .min() ব্যবহার করে total data এর সব থেকে minimum vaule বাহির করতে পারি।

import pandas as pd

salaryy = pd.read_csv("salary.csv", index_col = "Salary", usecols = ["Age","Salary"] , squeeze = True)
print(salaryy.min())

OUTPUT:

27.0

dataseries.max() : dataseries এর data যদি numeric হয় তা হইলে আমরা .max() ব্যবহার করে total data এর সব থেকে maximum vaule বাহির করতে পারি।

import pandas as pd

salaryy = pd.read_csv("salary.csv", index_col = "Salary", usecols = ["Age","Salary"] , squeeze = True)
print(salaryy.max())

OUTPUT:

50.0

dataseries.median() : dataseries এর data যদি numeric হয় তা হইলে আমরা .median() ব্যবহার করে total data এর mid point vaule বাহির করতে পারি।

import pandas as pd

salaryy = pd.read_csv("salary.csv", index_col = "Salary", usecols = ["Age","Salary"] , squeeze = True)
print(salaryy.median()) # give mid point value 

OUTPUT:

38.0

dataseries.mode() : dataseries এর data যদি numeric হয় তা হইলে আমরা .mode() ব্যবহার করে total data এর most frequently data বাহির করতে পারি।

import pandas as pd

salaryy = pd.read_csv("salary.csv", index_col = "Salary", usecols = ["Age","Salary"] , squeeze = True)
print(salaryy.mode())

OUTPUT:


0	27.0
1	30.0
2	35.0
3	37.0
4	38.0
5	40.0
6	44.0
7	48.0
8	50.0

dtype: float64

dataseries.describe() : আমরা data-set এর overview পাইতে চাইলে .describe() ব্যবহার করে count row তে NaN ছাড়া total কতটা row আছে তা দেখতে পাই। mean row তে total row এর গড় দেখতে পাই। std row তে dataseries এর standerd devision এর মান দেখতে পাই। min row তে NaN ছাড়া minimum value দেখতে পাই।এ ছাড়া 25%,50%,75% row তে total value এর 25% এর বা 50%এর বা 75%এর value কত হইতে পারে তা দেখতে পাই।

import pandas as pd

salaryy = pd.read_csv("salary.csv", index_col = "Salary", usecols = ["Age","Salary"] , squeeze = True)
print(salaryy.describe())

OUTPUT:


count	9.000000
mean	38.777778
std	7.693793
min	27.000000
25%	35.000000
50%	38.000000
75%	44.000000
max	50.000000

Name: Age, dtype: float64

.idxmax() AND .idxmin() :#

আমরা তো maximum বা minimum value বাহির করতে পারি। এখন দেখব কেমনে আমরা max বা min এর index বাহির করতে পারি। .idxmax() দ্বারা আমরা maximum value এর index এবং .idxmin() দ্বারা minimum value এর index পাইতে পারি।

import pandas as pd
salaryy = pd.read_csv("salary.csv", index_col = "Salary", usecols = ["Age","Salary"] , squeeze = True)

print(salaryy.max())
print(salaryy.idxmax())  #1

print(salaryy[83000.0])  #2

print(salaryy[salaryy.idxmin()])  # together 2[1]

OUTPUT:

.value_counts() :#

আমরা চাইলে কোন value কতবার আছে তা .value_counts() এর দ্বারা দেখতে পারি।

import pandas as pd
salaryy = pd.read_csv("salary.csv", index_col = "Salary", usecols = ["Age","Salary"] , squeeze = True)


print(salaryy.value_counts())  # count repeted value +1

print(salaryy.value_counts().sum()) 
print(salaryy.count())  # same as sum of value_counts()

OUTPUT:


37.0	1
50.0	1
48.0	1
35.0	1
40.0	1
38.0	1
30.0	1
27.0	1
44.0	1

Name: Age, dtype: int64

9
9

.apply() :#

আমরা data-preprocessing এর জন্য .apply() function use করতে পারি। আমাদের data-set এর কোন column এর সকল ভালু যদি একটা flow তে change করতে চাই তা হইলে .apply() ব্যবহার করে তা আমরা করতে পারি। .apply() এর জন্য একটি function প্রয়োজন হয়। আমরা annonimus function ব্যবহার করতে পারি। যেমন lambda function. আমরা একটি উদাহারন এ age column এর সব মান ১০০ গুন বাড়ায়ে দেখব।

import pandas as pd
salaryy = pd.read_csv("salary.csv", index_col = "Salary", usecols = ["Age","Salary"] , squeeze = True)

salaryy.apply(lambda age : age * 100)

OUTPUT:

Salary


72000.0	4400.0
48000.0	2700.0
54000.0	3000.0
61000.0	3800.0
NaN	4000.0
58000.0	3500.0
52000.0	NaN
79000.0	4800.0
83000.0	5000.0
67000.0	3700.0

Name: Age, dtype: float64

.map()#

আমরা যদি একাধিক dataset কে একটি dataset এ রূপান্তর করতে চাই তা হইলে আমরা .map() ব্যবহার করতে পারি। series_value.map(compare_argoment_series). series_value এর column-data এর সঙ্ঘে compare_argoment_series এর index compare হয়। আর নতুন যে series তৈরি হবে, তার index হবে series_value এর column আর compare_argoment_series এর columns গুলো নতুন series এর columns হবে।

import pandas as pd

salary = pd.read_csv("salary.csv", index_col = "Salary", usecols = ["Age","Salary"] , squeeze = True)

age = pd.read_csv("salary.csv", index_col = "Age", usecols = ["Age","Salary"] , squeeze = True)

print(age.map(salary))

OUTPUT:

Age


44.0	44.0
27.0	27.0
30.0	30.0
38.0	38.0
40.0	40.0
35.0	35.0
NaN	NaN
48.0	48.0
50.0	50.0
37.0	37.0

Name: Salary, dtype: float64