❶ 關於股票逐筆成交數據的小技巧
搭建逐筆成交資料庫並挖掘逐筆數據因子是獲取股票Alpha信息的有效途徑。在操作過程中,需先准備一台支持計算任務的電腦,並找到數據源。逐筆數據通常以交易日命名,包含數千個CSV文件,每個文件對應一個股票。數據量龐大,需要分塊處理,以避免內存不足。舉例,以平安銀行為例,一天的交易數據量可達近7千萬行,數據處理難度大。數據應分塊存儲,每個交易日的數據存為一個文件夾,內含若干數據塊,每塊約200萬行,以支持並行處理。Python+Pandas處理數據時,推薦使用feather文件格式,因其壓縮率高且讀取速度快。因子計算通常分為兩步:首先形成sub_factor,然後匯總為最終factor。此過程需將所有sub_factor並行計算,並邊計算邊保存。最終匯總所有sub_factor,完成因子計算。此方法提高了因子計算的效率和可行性。