http://sourceforge.jp/downloads/users/2/2285/HSPCL1.1.rar/

とりあえず加算サンプル。
まずデバイスを取得するところまでが鬼門だった気がする。 そもそも対応デバイスがそれなりに古くないグラボ(オンボード不可)だから相当限られるだろう

ローカルメモリ(共有メモリ)使えて、double計算できるだけでも十分だけど