❶ 关于股票逐笔成交数据的小技巧
搭建逐笔成交数据库并挖掘逐笔数据因子是获取股票Alpha信息的有效途径。在操作过程中,需先准备一台支持计算任务的电脑,并找到数据源。逐笔数据通常以交易日命名,包含数千个CSV文件,每个文件对应一个股票。数据量庞大,需要分块处理,以避免内存不足。举例,以平安银行为例,一天的交易数据量可达近7千万行,数据处理难度大。数据应分块存储,每个交易日的数据存为一个文件夹,内含若干数据块,每块约200万行,以支持并行处理。Python+Pandas处理数据时,推荐使用feather文件格式,因其压缩率高且读取速度快。因子计算通常分为两步:首先形成sub_factor,然后汇总为最终factor。此过程需将所有sub_factor并行计算,并边计算边保存。最终汇总所有sub_factor,完成因子计算。此方法提高了因子计算的效率和可行性。