Richard`s 防忘記 Blog: 9月 2019

2019年9月19日星期四

pandas查看數據值列的彙總統計

import numpy as np
import requests
import pandas as pd
import datetime

import csv, json, sys
import matplotlib.pyplot as plt

def transform_date(date):
        y, m, d = date.split('/')
        return str(int(y)+1911) + '/' + m + '/' + d #民國轉西元

def transform_data(data):
    data[0] = datetime.datetime.strptime(transform_date(data[0]), '%Y/%m/%d')
    data[1] = int(data[1].replace(',', '')) #把千進位的逗點去除
    data[2] = int(data[2].replace(',', ''))
    data[3] = float(data[3].replace(',', ''))
    data[4] = float(data[4].replace(',', ''))
    data[5] = float(data[5].replace(',', ''))
    data[6] = float(data[6].replace(',', ''))
    data[7] = float(0.0 if data[7].replace(',', '') == 'X0.00' else data[7].replace(',', '')) # +/-/X表示漲/跌/不比價
    data[8] = int(data[8].replace(',', ''))
    #print(data)
    return data

def transform(data):
    return [transform_data(d) for d in data]



def save_data_file(path, stock_date,stock_id):
    #http://www.twse.com.tw/exchangeReport/STOCK_DAY?date=20190901&stockNo=1314
    url = 'http://www.twse.com.tw/exchangeReport/STOCK_DAY?date=%s&stockNo=%s' % ( stock_date, stock_id)
    r = requests.get(url)
    jdata = r.json()

    filename = '%s%s_%s.json' % (path, stock_id, stock_date)
    with open(filename, 'w') as json_file:
    json.dump(jdata, json_file)
    return jdata

def get_data_file(path, stock_date,stock_id):
    filename = '%s%s_%s.json' % (path, stock_id, stock_date)
    with open(filename) as f:
    jdata = json.load(f)
    #print(transform(jdata['data']))
    #print(jdata['data'])
    return (transform(jdata['data']))

def get_data_result(data,stock_no):
    s = pd.DataFrame(data)
    s.columns = ['date', 'shares', 'amount', 'open', 'high', 'low', 'close', 'change', 'turnover']
                                                                                                        #"日期","成交股數","成交金額","開盤價","最高價","最低價","收盤價","漲跌價差","成交筆數"
    stock = []
    for i in range(len(s)):
        stock.append(stock_no)
    s['stockno'] = pd.Series(stock ,index=s.index)                                                        #新增股票代碼欄，之後所有股票進入資料表才能知道是哪一張股票
    datelist = []
    for i in range(len(s)):
        datelist.append(s['date'][i])
    s.index = datelist #索引值改成日期
    s2 = s.drop(['date'],axis = 1) #刪除日期欄位
    mlist = []
    for item in s2.index:
        mlist.append(item.month)
    s2['month'] = mlist #新增月份欄位


    return s2

def process_stock():
    path = 'json/'
    date = ['20190901']
    listID = ['2330']

    for i in range(len(listID)):
        for month in range(len(date)):
            #result = save_data_file(path, date[month], listID[i])
            result = get_data_file(path, date[month], listID[i])
            result = get_data_result(result, listID[i])
            print(result)
            #print(result.groupby('month').close.count()) #每個月幾個營業日
            #print(result.groupby('month').shares.sum()) #每個月累計成交股數

            dfTotal = result['amount']

            #print('mean = %s' % (dfTotal.mean()) )
            #print('std = %s' % (dfTotal.std()) )
            #print('max = %s' % (dfTotal.max()) )
            #print('min = %s' % (dfTotal.min()) )
            #print('median = %s' % (dfTotal.median()) )
            print('%s' % (dfTotal.describe()) )

            dfTotal = result['close']
            #print('mean = %s' % (dfTotal.mean()) )
            #print('std = %s' % (dfTotal.std()) )
            #print('max = %s' % (dfTotal.max()) )
            #print('min = %s' % (dfTotal.min()) )
            #print('median = %s' % (dfTotal.median()) )
            print('%s' % (dfTotal.describe()) )

process_stock()

def process_stock():
    df = pd.read_csv(r'./AQI.csv')
    dfTotal = df['AQI']
    print('mean = %s' % (dfTotal.mean()) )
    print('std = %s' % (dfTotal.std()) )
    print('max = %s' % (dfTotal.max()) )
    print('min = %s' % (dfTotal.min()) )
    print('median = %s' % (dfTotal.median()) )

Pandas速查

本文翻譯自文章：Pandas Cheat Sheet - Python for Data Science，同時添加了部分註解。
對於數據科學家，無論是數據分析還是數據挖掘來說，Pandas是一個非常重要的Python包。它不僅提供了很多方法，使得數據處理非常簡單，同時在數據處理速度上也做了很多優化，使得和Python內置方法相比時有了很大的優勢。
如果你想學習Pandas，建議先看兩個網站。
（1）官網：Python Data Analysis Library
（2）十分鐘入門Pandas：10 Minutes to pandas
在第一次學習Pandas的過程中，你會發現你需要記憶很多的函數和方法。所以在這裡我們彙總一下Pandas官方文檔中比較常用的函數和方法，以方便大家記憶。同時，我們提供一個PDF版本，方便大家打印。pandas-cheat-sheet.pdf

關鍵縮寫和包導入

在這個速查手冊中，我們使用如下縮寫：

df：任意的Pandas DataFrame對象
s：任意的Pandas Series對象

同時我們需要做如下的引入：

import pandas as pd
import numpy as np

導入數據

pd.read_csv(filename)：從CSV文件導入數據
pd.read_table(filename)：從限定分隔符的文本文件導入數據
pd.read_excel(filename)：從Excel文件導入數據
pd.read_sql(query, connection_object)：從SQL表/庫導入數據
pd.read_json(json_string)：從JSON格式的字符串導入數據
pd.read_html(url)：解析URL、字符串或者HTML文件，抽取其中的tables表格
pd.read_clipboard()：從你的粘貼板獲取內容，並傳給read_table()
pd.DataFrame(dict)：從字典對象導入數據，Key是列名，Value是數據

導出數據

df.to_csv(filename)：導出數據到CSV文件
df.to_excel(filename)：導出數據到Excel文件
df.to_sql(table_name, connection_object)：導出數據到SQL表
df.to_json(filename)：以Json格式導出數據到文本文件

創建測試對象

pd.DataFrame(np.random.rand(20,5))：創建20行5列的隨機數組成的DataFrame對象
pd.Series(my_list)：從可迭代對象my_list創建一個Series對象
df.index = pd.date_range('1900/1/30', periods=df.shape[0])：增加一個日期索引

查看、檢查數據

df.head(n)：查看DataFrame對象的前n行
df.tail(n)：查看DataFrame對象的最後n行
df.shape()：查看行數和列數
http://df.info()：查看索引、數據類型和內存信息
df.describe()：查看數值型列的彙總統計
s.value_counts(dropna=False)：查看Series對象的唯一值和計數
df.apply(pd.Series.value_counts)：查看DataFrame對象中每一列的唯一值和計數

數據選取

df[col]：根據列名，並以Series的形式返回列
df[[col1, col2]]：以DataFrame形式返回多列
s.iloc[0]：按位置選取數據
s.loc['index_one']：按索引選取數據
df.iloc[0,:]：返回第一行
df.iloc[0,0]：返回第一列的第一個元素

數據清理

df.columns = ['a','b','c']：重命名列名
pd.isnull()：檢查DataFrame對象中的空值，並返回一個Boolean數組
pd.notnull()：檢查DataFrame對象中的非空值，並返回一個Boolean數組
df.dropna()：刪除所有包含空值的行
df.dropna(axis=1)：刪除所有包含空值的列
df.dropna(axis=1,thresh=n)：刪除所有小於n個非空值的行
df.fillna(x)：用x替換DataFrame對象中所有的空值
s.astype(float)：將Series中的數據類型更改為float類型
s.replace(1,'one')：用『one'代替所有等於1的值
s.replace([1,3],['one','three'])：用'one'代替1，用'three'代替3
df.rename(columns=lambda x: x + 1)：批量更改列名
df.rename(columns={'old_name': 'new_ name'})：選擇性更改列名
df.set_index('column_one')：更改索引列
df.rename(index=lambda x: x + 1)：批量重命名索引

數據處理：Filter、Sort和GroupBy

df[df[col] > 0.5]：選擇col列的值大於0.5的行
df.sort_values(col1)：按照列col1排序數據，默認升序排列
df.sort_values(col2, ascending=False)：按照列col1降序排列數據
df.sort_values([col1,col2], ascending=[True,False])：先按列col1升序排列，後按col2降序排列數據
df.groupby(col)：返回一個按列col進行分組的Groupby對象
df.groupby([col1,col2])：返回一個按多列進行分組的Groupby對象
df.groupby(col1)[col2]：返回按列col1進行分組後，列col2的均值
df.pivot_table(index=col1, values=[col2,col3], aggfunc=max)：創建一個按列col1進行分組，並計算col2和col3的最大值的數據透視表
df.groupby(col1).agg(np.mean)：返回按列col1分組的所有列的均值
data.apply(np.mean)：對DataFrame中的每一列應用函數np.mean
data.apply(np.max,axis=1)：對DataFrame中的每一行應用函數np.max

數據合併

df1.append(df2)：將df2中的行添加到df1的尾部
df.concat([df1, df2],axis=1)：將df2中的列添加到df1的尾部
df1.join(df2,on=col1,how='inner')：對df1的列和df2的列執行SQL形式的join

數據統計

df.describe()：查看數據值列的彙總統計
df.mean()：返回所有列的均值
df.corr()：返回列與列之間的相關係數
df.count()：返回每一列中的非空值的個數
df.max()：返回每一列的最大值
df.min()：返回每一列的最小值
df.median()：返回每一列的中位數
df.std()：返回每一列的標準差

2019年9月18日星期三

公開資料取股價存成json

import numpy as np
import requests
import pandas as pd
import datetime

import csv, json, sys
import matplotlib.pyplot as plt

def transform_date(date):
        y, m, d = date.split('/')
        return str(int(y)+1911) + '/' + m + '/' + d #民國轉西元

def transform_data(data):
    data[0] = datetime.datetime.strptime(transform_date(data[0]), '%Y/%m/%d')
    data[1] = int(data[1].replace(',', '')) #把千進位的逗點去除
    data[2] = int(data[2].replace(',', ''))
    data[3] = float(data[3].replace(',', ''))
    data[4] = float(data[4].replace(',', ''))
    data[5] = float(data[5].replace(',', ''))
    data[6] = float(data[6].replace(',', ''))
    data[7] = float(0.0 if data[7].replace(',', '') == 'X0.00' else data[7].replace(',', '')) # +/-/X表示漲/跌/不比價
    data[8] = int(data[8].replace(',', ''))
    #print(data)
    return data

def transform(data):
    return [transform_data(d) for d in data]



def save_data_file(path, stock_date,stock_id):
    #http://www.twse.com.tw/exchangeReport/STOCK_DAY?date=20190901&stockNo=1314
    url = 'http://www.twse.com.tw/exchangeReport/STOCK_DAY?date=%s&stockNo=%s' % ( stock_date, stock_id)
    r = requests.get(url)
    jdata = r.json()

    filename = '%s%s_%s.json' % (path, stock_id, stock_date)
    with open(filename, 'w') as json_file:
    json.dump(jdata, json_file)
    return jdata

def get_data_file(path, stock_date,stock_id):
    filename = '%s%s_%s.json' % (path, stock_id, stock_date)
    with open(filename) as f:
    jdata = json.load(f)
    #print(transform(jdata['data']))
    #print(jdata['data'])
    return (transform(jdata['data']))

def get_data_result(data,stock_no):
    s = pd.DataFrame(data)
    s.columns = ['date', 'shares', 'amount', 'open', 'high', 'low', 'close', 'change', 'turnover']
                                                                                                        #"日期","成交股數","成交金額","開盤價","最高價","最低價","收盤價","漲跌價差","成交筆數"
    stock = []
    for i in range(len(s)):
        stock.append(stock_no)
    s['stockno'] = pd.Series(stock ,index=s.index)                                                        #新增股票代碼欄，之後所有股票進入資料表才能知道是哪一張股票
    datelist = []
    for i in range(len(s)):
        datelist.append(s['date'][i])
    s.index = datelist #索引值改成日期
    s2 = s.drop(['date'],axis = 1) #刪除日期欄位
    mlist = []
    for item in s2.index:
        mlist.append(item.month)
    s2['month'] = mlist #新增月份欄位


    return s2

path = 'json/'
date = ['20190901']
listID = ['2330']

for i in range(len(listID)):
    for month in range(len(date)):
        #result = save_data_file(path, date[month], listID[i])
        result = get_data_file(path, date[month], listID[i])
        result = get_data_result(result, listID[i])
        print(result)
        print(result.groupby('month').close.count()) #每個月幾個營業日
        print(result.groupby('month').shares.sum()) #每個月累計成交股數

使用Python抓取台股證交所每日股價資料進行分析

使用網址「http://www.twse.com.tw/exchangeReport/STOCK_DAY?date=20180817&stockNo=2330」，由證交所所提供的網址，可以經由stockNo指定股票編號，date指定股票日期，以json格式回傳一個月的股價與交易量，以下為回傳結果。

{"stat":"OK","date":"20180817","title":"107年08月 2330 台積電各日成交資訊","fields":["日期","成交股數","成交金額","開盤價","最高價","最低價","收盤價","漲跌價差","成交筆數"],"data":[["107/08/01","29,777,161","7,375,488,342","247.00","248.00","246.50","248.00","+2.00","11,667"],["107/08/02","22,775,110","5,611,725,541","249.00","249.50","243.50","244.50","-3.50","10,343"],["107/08/03","25,165,097","6,205,758,662","246.00","248.00","245.00","247.00","+2.50","9,585"],["107/08/06","22,364,568","5,487,396,854","245.00","247.00","244.00","245.50","-1.50","9,732"],"notes":["符號說明:+/-/X表示漲/跌/不比價","當日統計資訊含一般、零股、盤後定價、鉅額交易，不含拍賣、標購。","ETF證券代號第六碼為K、M、S、C者，表示該ETF以外幣交易。"]}

使用request.get擷取指定日期與股票編號的網頁資料，使用request的函式json進行json格式的解碼成Python的資料結構，取出data所對應的值就是當月該股票的交易資料，使用函式transform進行格式轉換。

import numpy as np
import requests
import pandas as pd
import datetime

#   http://www.twse.com.tw/exchangeReport/STOCK_DAY?date=20180817&stockNo=2330  取一個月的股價與成交量
def get_stock_history(date, stock_no):
    quotes = []
    url = 'http://www.twse.com.tw/exchangeReport/STOCK_DAY?date=%s&stockNo=%s' % ( date, stock_no)
    r = requests.get(url)
    data = r.json()
    return transform(data['data'])  #進行資料格式轉換

def transform_date(date):
        y, m, d = date.split('/')
        return str(int(y)+1911) + '/' + m  + '/' + d  #民國轉西元
    
def transform_data(data):
    data[0] = datetime.datetime.strptime(transform_date(data[0]), '%Y/%m/%d')
    data[1] = int(data[1].replace(',', ''))  #把千進位的逗點去除
    data[2] = int(data[2].replace(',', ''))
    data[3] = float(data[3].replace(',', ''))
    data[4] = float(data[4].replace(',', ''))
    data[5] = float(data[5].replace(',', ''))
    data[6] = float(data[6].replace(',', ''))
    data[7] = float(0.0 if data[7].replace(',', '') == 'X0.00' else data[7].replace(',', ''))  # +/-/X表示漲/跌/不比價
    data[8] = int(data[8].replace(',', ''))
    return data

def transform(data):
    return [transform_data(d) for d in data]

def create_df(date,stock_no):
    s = pd.DataFrame(get_stock_history(date, stock_no))
    s.columns = ['date', 'shares', 'amount', 'open', 'high', 'low', 'close', 'change', 'turnover']
                #"日期","成交股數","成交金額","開盤價","最高價","最低價","收盤價","漲跌價差","成交筆數" 
    stock = []
    for i in range(len(s)):
        stock.append(stock_no)
    s['stockno'] = pd.Series(stock ,index=s.index)  #新增股票代碼欄，之後所有股票進入資料表才能知道是哪一張股票
    datelist = []
    for i in range(len(s)):
        datelist.append(s['date'][i])
    s.index = datelist  #索引值改成日期
    s2 = s.drop(['date'],axis = 1)  #刪除日期欄位
    mlist = []
    for item in s2.index:
        mlist.append(item.month)
    s2['month'] = mlist  #新增月份欄位
    return s2
        
listDji = ['2330']
for i in range(len(listDji)):
    result = create_df('20180701', listDji[i])
    print(result)
    
print(result.groupby('month').close.count())  #每個月幾個營業日
print(result.groupby('month').shares.sum())  #每個月累計成交股數

訂閱：意見 (Atom)

2019年9月19日 星期四