讲道理我感觉没有load value driven的那一篇有价值毕竟各种nn本来延迟就高，各种减精度以后也没有比原来好多少现在前端都在卷每周期两条taken，这个延迟很难解决而且最关键的是你profile出来的训练数据如何保证fair，编译器那边的pgo都还是经常负优化，你在benchmark上能有收益万一放到正常程序就寄了呢

Easton Man's Channel

近几年顶会的bpu论文以Intel的那一篇sw/hw co-design的 Branch Prediction Is Not a Solved Problem 为起始，都开始搞cnn/rnn/rl，然后搞个ISA扩展让编译器做profiling以后插hint进去

讲道理我感觉没有load value driven的那一篇有价值
毕竟各种nn本来延迟就高，各种减精度以后也没有比原来好多少
现在前端都在卷每周期两条taken，这个延迟很难解决
而且最关键的是你profile出来的训练数据如何保证fair，编译器那边的pgo都还是经常负优化，你在benchmark上能有收益万一放到正常程序就寄了呢