Easton Man's Channel
近几年顶会的bpu论文以Intel的那一篇sw/hw co-design的 Branch Prediction Is Not a Solved Problem 为起始,都开始搞cnn/rnn/rl,然后搞个ISA扩展让编译器做profiling以后插hint进去
讲道理我感觉没有load value driven的那一篇有价值
毕竟各种nn本来延迟就高,各种减精度以后也没有比原来好多少
现在前端都在卷每周期两条taken,这个延迟很难解决
而且最关键的是你profile出来的训练数据如何保证fair,编译器那边的pgo都还是经常负优化,你在benchmark上能有收益万一放到正常程序就寄了呢
 
 
Back to Top