Sullivan的筆記本

Wednesday, May 1, 2024

python跨加密貨幣交易所交易

這幾天把原來的交易程式改成能同時監控多個交易所、多幣的python腳本。原本就已經有一套交易策略了。接下來的只是把一些數據和交易接口替換成ccxt。

主程式 : 幣安(sdk)
外掛 : bingx(ccxt)

什麼是程式化自動交易

最近剛上線了個台期指程式化自動交易。目前就放個一口小台的資金讓機器人自己去交易，順便測一下bug，賠到下不了小台再說。自動化交易能聊的很多，今天先聊一些觀念上的事：

一般人對程式化交易可能有許多誤解，包括程式化自動交易是獲利的保證、程式化自動交易是把一些規則寫成程式自動執行。

首先要說明的是，一套完整的自動化交易策略包括了：盤前選股、盤中選時、下單資金分配、止盈止損。一般人關注的是技術指標，這可能是在盤前選股階段，也可能是在盤中選時階段。但關鍵點往往是止盈止損。舉個例子來說，如果你做的是布林通道策略，在價格跌破下時買入，那麼你的出場策略是什麼？萬一你抄底抄在下降趨勢呢？技術指標還有很多小細節，例如你選的Ｋ線數量跟標準差是怎麼決定出來的？止盈跟止損的邏輯是什麼？遇到近期有除權除息怎麼辦？

布林通道

同一套交易策略應用在不同的股票上，結果可能截然不同。一套交易策略應用在台積電上面可能可以有年化15%的收益，但是套在0050上面可能是虧損10%。

目前台股市場上有XQ、MultiChart這些適合自動化交易入門的交易者，為什麼還要自己寫python策略呢？

既然要做自動化交易，自然不是把主觀交易的那一套策略簡單搬過來。上面說了，一套完整的策略包括了盤前選股、盤中選時、下單資金分配、止盈止損。每個情況的決策路徑都不一樣。XQ、MultiChart這些工具並沒辦法寫下這樣的決策路徑。

其次是我主要是做短線動能策略的，是基於量先價行的核心觀念，靠盤中的成交量衍生出技術指標。例如我也會計算類似XQ裡面「量比」的技術指標，但我需要的是盤中短時間內的比值，這些指標都得拿tick數據在交易時間內自己計算。

MGK在書上有一段關於程式化自動交易很生動的描述。有興趣的可以再去翻翻他的書。從一個小散戶的角度來思考這個故事，小散戶的資金並不適合做"股票"程式化自動交易。一方面程式化自動交易是大數法則，二方面是交易成本、三方面是盤前選股、盤中選時、下單資金分配、止盈止損中你怎知道是哪個環節出錯？或許你的抄底策略改善一下止損策略就能大幅提升策略績效。

程式化自動交易就只是個工具而已，有時候不是工具的問題，可能是用錯了交易品種、可能是把主觀交易那一套策略完全照搬過來沒用上程式化自動交易的優勢。

至於回測....懂得都懂不多談了。對於程式化自動交易有興趣的朋友，建議先別想得太複雜，先從止盈止損規則入手。

Tuesday, July 4, 2023

新手如何自學python

最近看到個關於新手如何學習python的討論串。順便分享一下我自己學習python的經驗，希望能幫新同學少走彎路少採坑。

因為我不是Computer Science背景的，也不是上課程有系統學python，加上我學習python的時候年紀已經很大了，完全是一套野蠻生長的學習套路，我沒怎麼看書，幸運的是身旁的同事都是python高手，或是其他相關團隊例如DBA/Hadoop/BI/modeling／app開發/docker，靠著不要臉的方式問這些小朋友，然後網上找解答(這個下期介紹)。因此一些同學會遇到的問題，我應該都遇過。目前我工作上每天都需要用到python。另外在一些課程平台上也有開課。因為這些課程一般同學應該都無法買，所以也沒啥打廣告的嫌疑。

甚麼是量化交易選股?

一般人常聽到量化交易，但對於一般人來說，量化交易似乎感覺很接近，但真要實際使用卻很遙遠。今天聊一聊為何要python自建選股。

Python王者歸來台股量化交易從入門到放棄 (1)取得數據

最近持續會在一些論壇或學習群看到如何取得股價的問題。這問題說難不難，說簡單也不簡單，今天來介紹一下台股價量以及一些金融數據的下載方法。

架構

原本這系列是想先從架構介紹起。先從想要怎樣的成果開始介紹，然後回講到這樣的成果要如何建立開發環境，最後才介紹python。至於取得股價，原本不在寫作計畫內。畢竟對於有python基礎的朋友來說，網上有很多取得免費股價的方法，看一看複製貼上就寫完了。但對於一些新同學來說，這一關可能會卡很久。因此這篇除了介紹一些免費取得股價的方法之外，還介紹一些選擇數據源和儲存數據的考量。

為什麼貼了上面這個架構圖?是因為要提醒新同學，要學的東西真的很多，自己斟酌一下哪些是你該花時間學的，哪些功能找網路上的簡單代碼複製貼上就好。

網路上有很多取得股市數據的教學文或現成的代碼，所以當你看到網路上有取得股市數據的教學時立刻動手做之前，請先檢查一下一些事。你或許想取得當天即時成交股價，但你看一篇文章看了半天才，跑完代碼才發現這是歷史股價，又或許花了好幾天時間修改網路上的代碼才發現一分鐘限制你讀取次數。以下是我踩了許多坑之後，所整理出來的匯總表。

數據源	取得方式	參考鏈結	即時/歷史	優點	缺點
yahoo股市	爬蟲	https://tw.stock.yahoo.com/	即時	初學者最直觀	開發與維護的難度高
yfinance	api	https://pypi.org/project/yfinance/	歷史	直接套用函式	只有歷史股價
證交所/櫃買	html傳輸	python爬蟲 — 每日即時股價	即時	官方數據	限制高頻使用,需要另外開發
永豐金證券shioaji	api	永豐金證券	即時/歷史	直接套用函式	只有股價數據。要先開戶
finmindtrade	api	https://finmindtrade.com/	即時/歷史	直接套用函式。有股價以外的市場數據	部分數據需要繳交會員費

在介紹如何取得股價的方法之前，先介紹一下股價有歷史股價與當天即時成交股價兩種。兩種數據的數據源和存儲格式都不相同。由於取得歷史股價的方法比較多，可以參考這張彙總表。以下實戰部分是取得當天即時成交股價的方法作為例子。

實戰

除了歷史數據還是即時數據之外，另一個要考慮的是返回的是怎樣的數據格式。初學者比較孰悉的是爬取網頁上的數據，如果你學習的主要目的是學爬蟲，這或許是個不錯的數據源。但爬蟲其實是挺深的領域。你想爬對方網頁的數據，對方也知道你想爬他們的數據，自然有許多反爬蟲手段，最簡單的是隨便改個頁面配置或是訪問限制，或是設個人機辨識的captcha就能夠讓你忙翻天。

另外就數據處理來說，網頁爬回來的數據需要相當多的加工。也增加你整套分析架構的工作量與不穩定性。

另一種數據源是http通訊。透過網址傳入參數(post)，以網頁回傳結果(get)。證交所目前是用這種格是返回即時股價，數據內容是json串。如果你受限於一些因素需要採用這種格式的數據，json串處理起來也不難，也是個挺穩定的數據來源。一些小缺點包括上市上櫃給先分開查詢，還有需要另外一段代碼來轉換成接下來能運算的數據。但這種方式的最大問題是通常會限制訪問頻率，如果你的策略是要高頻取得股價，建議你換個方式。

比較推薦的方式是api。回傳的就是類似Excel(DataFrame)能夠直接使用的數據格式，你不用自己拆解和重新命名欄位。

操作建議

每個人的需求不同，因此搭建的架構也會不同，以下的操作建議是基於我的量化交易架構圖所開展出來的。

由於我需要歷史股價、當日即時股價、三大法人、融資融券、公司營收獲利等各種財金數據，因此我遵守儘量集中我的數據源、儘量不自己開發取數代碼這兩個原則。畢竟取數不是我的核心工作，也減少上線後代碼出問題debug的工作，因此我是採取永金證券的當日即時股價，合併finmindtrade的其他數據，含計算含當日成交價量的跨日技術指標。

在命名欄位名稱時，建議參考mplfinance的命名方式，你會發現這套命名規則和yfinance是一樣的。也就是用Date、Open、High、Low、Close、Volume這幾個欄位名稱(注意大小寫)來命名日期時間、開盤價、當日最高價、當日最低價、收盤價、成交量。

Thursday, May 27, 2021

Jupyter有兩種:Jupyter Note和JupyterLab

Jupyter 是python最通用的IDE之一。配置簡單、容易測試、網頁介面等，都是Jupyter的優點。一般在說Jupyter時，其實說的是Jupyter Notebook，Jupyter有兩個產品：Jupyter Notebook和JupyterLab。Jupyter Notebook大部分人都很熟悉，這裡要介紹的是JupyterLab。

在打開Anaconda的時候，我們可以看到有Jupyter Notebook和JupyterLab。JupyterLab的安裝環境和配置都和Jupyter Notebook一樣，使用方法也一樣，因此可以無痛轉換。

我自己原本也是用Jupyter Notebook好幾年了，但一換到JupyterLab後就真的回不去了。我個人推薦JupyterLab取代Jupyter Notebook的理由如下：

頁面整合
支持插件

先說說第一點：同一個頁流覽器面開啟多個Jupyter頁面。開發過程中經常會多段代碼同時推進，在Jupyter Notebook上就得開多個流覽器，如果你是使用chrome，那對佔用相當龐大的記憶體。另外，雖然chrome可以分組管理頁面，但你還得開檔編輯器、檔案管理器。整個視窗是相當混亂的。

關於視窗管理，Jupyter Notebook是單一頁面管理，對頁面空白處的使用是比較沒效率，你想同時管理檔案時，又得跳出頁面。JupyterLab可以同時開啟多個視窗，也可以暫時關閉管理視窗延長代碼視窗

第二點是可以安裝插件，這一點讓JupterLab有了無限的擴充性。我個人目前最依賴的是csv編輯器。你可以在server上使用vi、vim編輯檔，但遇到編輯csv時就得等跳出平臺使用其他編輯器。如果是使用Excel，csv開檔存檔都會面臨格式問題，使用文字編輯器又有欄位分隔問題，JupyterLab上的csv編輯器完美解決了這個需求。

Friday, April 16, 2021

關於大數據(1):容量

今天來談談大資料。大數據這名稱有點魔幻，到底多大的資料才算是大資料？資料有多大跟我有什麼關係？今天要介紹的，是從一個學生的角度，來思考大資料要如何入門。

網路上可以找到一些關於大資料的定義，這裡結錄一段基本概念：

「大數據（big data）」這一名詞是2008年由Infineta Systems公司的Haseeb Budhani提出。麥肯錫公司2011年對大數據有如下定義：大數據是其體量超出了傳統資料庫軟體工具的採集、存儲、管理和分析能力的數據。

大數據有5V特性，分別是Volume、Velocity、Variety、Value、Veracity。

容量（Volume）：大數據量大，不僅量大而且增長速度快；

變化性（Velocity）：數據流動性大，變化迅速；

種類（Variety）：數據類型的多樣性；

價值（Value）：價值是決定大數據應用的根本屬性，沒有價值就沒有大數據；

真實性（Veracity）：要求數據準確，準確的數據才能反映真實的資訊。」

大數據有多大?這麼大!!

由於篇幅比較大，今天先介紹關於資料容量的部分。也是我個人覺得重要性排名比較後的一部分。往下介紹之前，要說明的是大數據的出現，並不會影響這名詞出現前的分析方法或工具。現今大數據最大的跳戰，在於從不同的異種數據之間(例如圖像+語音+GPS+app操作習慣)，挖掘出數據價值。

先岔開一個話題。就我個人認知而言，大數據表現出來的是有價值的重點資訊，跟資料量多寡沒有直接關係。舉例來說：利用全國人口資料，能算出全國男女比例、年齡分佈等人口統計，這是大資料沒錯。

而一家服裝公司累積了幾十年的客戶身材資料，能夠快速設計出各種服裝，這些累積的身材資料可能只有幾十個mb，一個小小的筆電用excel也能產出極高的商業價值。我個人認為這也是的大資料。

除非是討論技術問題，就資料價值來說，將焦點放在資料量的“大小”，其實沒太大的實質意義。因此接下來的說明，都是站在你該“學習”什麼大數據技術的角度來了解什麼是大數據。

容量（Volume）:

我們從最終數據使用者的角度出發，從一般人都孰悉的Excel開始，一步一步往數據源走，了解什麼是大數據。

容量是第一個遇到的問題。但在說明容量之前，還要叉出去一個話題。你有沒有過這樣的經驗，一個幾十萬筆的excel(csv)你用excel開不了，但在同一台電腦上裝上MySQL或是python這些工具，都能秒開這些資料。關鍵問題是excel不是為了這樣數量的資料設計的，但資料庫的應用程式就是專門為了這些資料量設計的，而這一塊是數據工具方面。

容量的問題另一個核心問題是資料庫的設計。舉個簡單的例子，如果你的資料量每天都在增加，你可以設計成每天、每月存成一個檔案。資料查詢太慢，你可以改變將一些欄位的定義。例如在Excel中，你要查詢文字是很慢的，但查詢數字是很快的。如果在你的資料中，有些數字類型的欄位元例如收入、生日、股價的資料，就要改成數字格式。以上這些領域是數據結構的領域。

接下來一個情境是，你需要讀入多個資料來源。例如你需要讀入財務部關於成本的數據，你需要業務部的銷售數據、你需要開發部提供的客戶在官網web、app上的行為數據、你還需要接入一些外部公司的資料例如客戶透過fb粉絲群的反應。這時候你需要中台部門幫你整合並管理這些資料介面，你只面對數據中台，不需要自己都去接這些數據源，也不用去管理不同團隊間的權限和數據庫驅動。這是中台部門的領域。

這些不同的數據沒法直接提煉出你要的決策數據，你可以想像，面對這麼多數源(sheet)，你要在excel中做出個樞紐分析表前，得先將這些資料來源根據一些規則合併成一張sheet，而這就是商業智慧(BI)部門在做的事。這些同事依據你給的規則，幫你做出自動產出、即時更新的分析層資料集市(Data Mart)以及分析圖表(大部分情況是他們提供分析工具讓你自己做報表)。

再往上走，接下來資料量更大了，例如電信公司會存用戶上網時，是哪個基地台、用了多少用量。這時候涉及同一份庫表存在不同的物理硬碟或是伺服器上，你如果依照某些檔案存在某個物理磁片上的單機經驗，你的磁片很快就會爆而且磁碟空間的使用很沒效率。這領域是分散式存儲和分散式運算。

再往上還有呢。現在業界面臨的一個問題是資料孤島的問題。你家客戶的數據跟我家客戶的數據是不相通的。在面對一些問題的時候往往需要相互合作。例如某個信用卡詐欺集團同時申請了多家銀行的信用卡，如何跨銀行間合作找出這些詐欺集團的行為特徵？如何偵測同一個pos機或是商家在短期間內出現多家銀行信用卡的刷卡消費？銀行間如何在保密和合作間找到解決方案?就算有加密你的客戶資料會不會被合作夥伴用一些驗算法找出你的客群畫像？目前這一塊領域還在發展中，有興趣的可以找一下聯邦學習（Federated Learning）？

Sullivan的筆記本

Wednesday, May 1, 2024

python跨加密貨幣交易所交易

Monday, December 25, 2023

什麼是程式化自動交易

Tuesday, July 4, 2023

新手如何自學python

Thursday, May 25, 2023

甚麼是量化交易選股?

Wednesday, June 2, 2021

Python王者歸來台股量化交易從入門到放棄 (1)取得數據

Thursday, May 27, 2021

Jupyter有兩種:Jupyter Note和JupyterLab

Friday, April 16, 2021

關於大數據(1):容量

Wednesday, May 1, 2024

python跨加密貨幣交易所交易

Monday, December 25, 2023

什麼是程式化自動交易

Tuesday, July 4, 2023

新手如何自學python

Thursday, May 25, 2023

甚麼是量化交易選股?

Wednesday, June 2, 2021

Python王者歸來 台股量化交易從入門到放棄 (1)取得數據

Thursday, May 27, 2021

Jupyter有兩種:Jupyter Note和JupyterLab

Friday, April 16, 2021

關於大數據(1):容量

Python王者歸來台股量化交易從入門到放棄 (1)取得數據