讲道理我感觉没有load value driven的那一篇有价值
毕竟各种nn本来延迟就高,各种减精度以后也没有比原来好多少
现在前端都在卷每周期两条taken,这个延迟很难解决
而且最关键的是你profile出来的训练数据如何保证fair,编译器那边的pgo都还是经常负优化,你在benchmark上能有收益万一放到正常程序就寄了呢
毕竟各种nn本来延迟就高,各种减精度以后也没有比原来好多少
现在前端都在卷每周期两条taken,这个延迟很难解决
而且最关键的是你profile出来的训练数据如何保证fair,编译器那边的pgo都还是经常负优化,你在benchmark上能有收益万一放到正常程序就寄了呢