在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

TensorFlow正式發布1.5.0,使Volta GPUs/FP16上的訓練速度翻倍

DPVg_AI_era ? 2018-01-29 15:02 ? 次閱讀

TensorFlow今天正式發布了1.5.0版本,支持CUDA 9和cuDNN 7,進一步提速。并且,從1.6版本開始,預編譯二進制文件將使用AVX指令,這可能會破壞老式CPU上的TF

剛剛,TensorFlow發布了1.5.0正式版,很多人都期待已久,最重大的改動是支持CUDA 9和cuDNN 7,這承諾將使Volta GPUs/FP16上的訓練速度翻倍。

此外,Eager execution預覽版可用,也將吸引不少初學者。

下面是這次更新的重大變動及錯誤修復。

TensorFlow正式發布1.5.0,使Volta GPUs/FP16上的訓練速度翻倍

重大變動

現在預編譯的二進制文件是針對CUDA 9和cuDNN 7構建的。

從1.6版本開始,預編譯二進制文件將使用AVX指令。這可能會破壞老式CPU上的TF。

主要特點和改進

Eager execution

預覽版現在可用。

TensorFlow Lite

dev預覽現在可用。

提供CUDA 9和cuDNN 7支持。

加速線性代數(XLA):

將complex64支持添加到XLA編譯器。

bfloat支持現在被添加到XLA基礎設施。

使ClusterSpec propagation與XLA設備一起工作。

使用決定性執行程序來生成XLA圖。

tf.contrib:

tf.contrib.distributions:

添加tf.contrib.distributions.Autoregressive。

使tf.contrib.distributions QuadratureCompound類支持批處理

參數中推斷tf.contrib.distributions.RelaxedOneHotCategorical dtype。

使tf.contrib.distributions正交族參數化為quadrature_grid_and_prob vs quadrature_degree。

auto_correlation添加到tf.contrib.distributions

添加tf.contrib.bayesflow.layers,一個概率(神經)層的集合。

添加tf.contrib.bayesflow.halton_sequence。

添加tf.contrib.data.make_saveable_from_iterator。

添加tf.contrib.data.shuffle_and_repeat。

添加新的自定義轉換:tf.contrib.data.scan()。

tf.contrib.distributions.bijectors:

添加tf.contrib.distributions.bijectors.MaskedAutoregressiveFlow。

添加tf.contrib.distributions.bijectors.Permute。

添加tf.contrib.distributions.bijectors.Gumbel。

添加tf.contrib.distributions.bijectors.Reshape。

支持形狀推理(即,包含-1的形狀)在Reshape bijector。

添加streaming_precision_recall_at_equal_thresholds,streaming精度計算方法和 O(num_thresholds +預測的大小)時間和空間的復雜性。

更改RunConfig默認行為,不設置隨機種子,使得隨機行為在分布式Worker上獨立隨機。期待這一點普遍提高訓練效果。依靠determinism的模型應明確設置一個隨機種子。

用absl.flags取代了tf.flags的實現。

在fp16 GEMM中添加對CUBLAS_TENSOR_OP_MATH的支持

在NVIDIA Tegra設備上添加對CUDA的支持

錯誤修復和其他更改

文檔更新:

說明只能在64位機器上安裝TensorFlow。

添加了一個簡短的文檔,解釋了Estimators如何保存檢查點。

為tf2xla網橋支持的操作添加文檔。

修復SpaceToDepth和DepthToSpace文檔中的小錯別字。

在mfcc_mel_filterbank.h和mfcc.h中更新了文檔注釋,說明輸入域是幅度譜的平方,權重是在線性幅度譜(輸入的平方)上完成的。

更改tf.contrib.distributions docstring示例以使用tfd別名,而不是ds,bs。

修復tf.distributions.bijectors.Bijector中的文檔字符串錯別字。

tf.assert_equal不再引發ValueError。現在提出InvalidArgumentError。

更新入門文檔和API介紹。

Google云端存儲(GCS):

為GCS客戶端添加用戶空間DNS緩存。

為GCS文件系統定制請求超時。

改進GCS文件系統緩存。

Bug修復:

修正分區整型變量得到錯誤形狀的問題。

修正Adadelta的CPU和GPU實現中的correctness bug。

修復import_meta_graph在處理分區變量時的錯誤。警告:這可能會破壞使用帶有非空的import_scope參數的import_meta_graph后保存的分區變量的圖形加載檢查點。

修復離線調試器中阻止查看事件的錯誤。

將WorkerService.DeleteWorkerSession方法添加到gRPC接口來修復內存泄漏。確保主服務器和工作服務器運行相同版本的TensorFlow,以避免兼容性問題。

修復BlockLSTM單元的窺視孔peephole實現中的bug。

通過將dtype的log_det_jacobian轉換為與TransformedDistribution中的log_prob匹配來修復bug。

修復import_meta_graph在處理分區變量時的錯誤,確保tf.distributions.Multinomial不會在log_prob中下溢。在這個變化之前,整型變量的所有分區都用未分區變量的形狀初始化; 在這個改變之后他們被正確地初始化。

其他

為bfloat16添加必要的形狀util支持。

添加一個方法來使用MonitoredSession的step函數運行ops。

添加DenseFlipout概率層。

訓練時有一個新的標志ignore_live_threads。如果設置為True,它會在成功完成訓練后,忽略在拆除基礎架構時仍然運行的線程,而不是拋出一個RuntimeError。

重新標準化DenseVariational作為其他概率的簡單模板層。

tf.data現在支持數據集元素中的tf.SparseTensor組件。

現在可以遍歷Tensors。

允許SparseSegmentReduction操作缺少段ID。

修改自定義導出策略以說明多維稀疏浮動分割。

Conv2D,Conv2DBackpropInput,Conv2DBackpropFilter現在支持具有GPU和cuDNNv6支持的任意擴展。

估算器現在支持數據集:input_fn可以返回數據集,而不是張量。

添加RevBlock,這是可逆殘留層的高效內存實現。

減少BFCAllocator內部碎片。

將cross_entropy和kl_divergence添加到tf.distributions.Distribution。

添加啟用反向傳播的tf.nn.softmax_cross_entropy_with_logits_v2w.r.t.標簽

GPU后端現在使用ptxas編譯生成的PTX。

BufferAssignment的協議緩沖區轉儲現在是確定性的。

將嵌入操作更改為使用DynamicStitch的并行版本。

添加對稀疏多維特征列的支持。

加快只有1個值的稀疏浮點列的情況。

允許稀疏浮動分割以支持多值特征列。

將分位數添加到tf.distributions.TransformedDistribution。

在GPU上添加對tf.depth_to_space的NCHW_VECT_C支持。

在GPU上為tf.space_to_depth添加NCHW_VECT_C支持。

API的更改

在Squeeze操作的C ++ API中將SqueezeDims屬性重命名為Axis。

Stream :: BlockHostUntilDone現在返回Status而不是bool。

次要重構:將統計文件從隨機移動到常見并移除隨機。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • cpu
    cpu
    +關注

    關注

    68

    文章

    10863

    瀏覽量

    211782
  • TF
    TF
    +關注

    關注

    0

    文章

    61

    瀏覽量

    33103
  • tensorflow
    +關注

    關注

    13

    文章

    329

    瀏覽量

    60536

原文標題:TensorFlow正式發布1.5.0,支持CUDA 9和cuDNN 7,雙倍提速

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    FPGA中使用FP16格式的點積運算實例分析

    本文講述的是使用FP16格式的點積運算實例,展示了MLP72支持的數字類型和乘數的范圍。
    發表于 08-15 09:50 ?2295次閱讀
    FPGA中使用<b class='flag-5'>FP16</b>格式的點積運算實例分析

    如何在Raspberry Pi安裝TensorFlow

     在本教程中,我們將學習如何在 Raspberry Pi 安裝 TensorFlow,并將展示一些在預訓練神經網絡上進行簡單圖像分類的示例。
    發表于 09-01 16:35 ?2227次閱讀
    如何在Raspberry Pi<b class='flag-5'>上</b>安裝<b class='flag-5'>TensorFlow</b>

    FP16轉換報錯的原因?

    FP32轉換正常,FP16轉換報錯(model_transform正常) 運行命令為: model_deploy.py--mlir
    發表于 01-10 08:01

    TensorFlow是什么

    更長。TensorFlow 使這一切變得更加簡單快捷,從而縮短了想法到部署之間的實現時間。在本教程中,你將學習如何利用 TensorFlow 的功能來實現深度神經網絡。TensorFlow
    發表于 07-22 10:14

    實例!詳解FPGA如何實現FP16格式點積級聯運算

    MLP72的列級聯到上面的下一個MLP72塊。在最后一個MLP72中,在每個周期,計算八個并行FP16乘法的總和。最終結果是多個輸入周期內的累加總和,其中累加由i_first和i_last輸入控制
    發表于 08-18 10:58

    詳解天線系統解決方案中的FP16格式點積級聯運算

    MLP72 的列級聯到上面的下一個 MLP72 塊。在最后一個 MLP72 中,在每個周期,計算八個并行 FP16 乘法的總和。最終結果是多個輸入周期內的累加總和,其中累加由 i_first
    發表于 09-04 16:12

    推斷FP32模型格式的速度比CPUFP16模型格式快是為什么?

    在 CPU 推斷出 FP32 模型格式和 FP16 模型格式。 FP32 模型格式的推斷速度FP
    發表于 08-15 08:03

    基于tensorflow.js設計、訓練面向web的神經網絡模型的經驗

    你也許會好奇:為什么要在瀏覽器里基于tensorflow.js訓練我的模型,而不是直接在自己的機器基于tensorflow訓練模型?你當然
    的頭像 發表于 10-18 09:43 ?4109次閱讀

    谷歌TensorFlow 2.4 Mac M1優化版發布

    搭載 Apple 全新 M1 芯片或 Intel 芯片 Mac 的 利用 TensorFlow 2.4 Mac 優化版和新的 ML Compute 框架來加快訓練速度。這些改進提升了
    的頭像 發表于 12-04 10:11 ?1535次閱讀

    NVIDIA助力騰訊助力“開悟”AI開放研究平臺

      為了充分利用NVIDIA V100 GPU的Tensor core, 騰訊“開悟”AI開放研究平臺希望能夠使用TensorRT FP16精度來加速推理。由于TensorRT對FP16的支持非常成熟和簡便,整個推理流程很快被切換到FP
    的頭像 發表于 04-21 10:47 ?1236次閱讀

    OpenCV 4.8.0正式發布

    OpenCV 4.8.0已于2023年6月29日凌晨正式發布,此次發布中有DNN模塊中對TFLite模型的支持,FP16精度推理的支持等諸多亮點。
    的頭像 發表于 06-30 16:11 ?900次閱讀

    先楫半導體 hpm_sdk v1.5.0 正式發布

    先楫半導體 hpm_sdk v1.5.0 正式發布
    的頭像 發表于 04-12 08:17 ?595次閱讀
    先楫半導體 hpm_sdk v<b class='flag-5'>1.5.0</b> 正式<b class='flag-5'>發布</b>

    NVIDIA GPU架構下的FP8訓練與推理

    FP8 訓練利用 E5M2/E4M3 格式,具備與 FP16 相當的動態范圍,適用于反向傳播與前向傳播。
    的頭像 發表于 04-25 10:01 ?753次閱讀
    NVIDIA GPU架構下的<b class='flag-5'>FP</b>8<b class='flag-5'>訓練</b>與推理

    tensorflow簡單的模型訓練

    在本文中,我們將詳細介紹如何使用TensorFlow進行簡單的模型訓練TensorFlow是一個開源的機器學習庫,廣泛用于各種機器學習任務,包括圖像識別、自然語言處理等。我們將從安裝
    的頭像 發表于 07-05 09:38 ?676次閱讀

    FP8數據格式在大型模型訓練中的應用

    本文主要介紹了 FP8 數據格式在大型模型訓練中的應用、挑戰及最佳實踐,展示了 FP8 在提升訓練速度和效率方面的潛力和實際效果。
    的頭像 發表于 11-19 14:54 ?292次閱讀
    <b class='flag-5'>FP</b>8數據格式在大型模型<b class='flag-5'>訓練</b>中的應用
    主站蜘蛛池模板: 日本a级精品一区二区三区| 特黄特黄aaaa级毛片免费看| 国产特级毛片aaaaaa毛片| 日本三级香港三级人妇网站| 五月婷婷伊人网| 黑人一区二区三区中文字幕| 色噜噜噜噜噜在线观看网站| 综合免费一区二区三区| 视频在线观看一区| 很黄很暴力 很污秽的小说 | 国产黄在线观看免费观看不卡| 天天操2023| 天天操综| 免费看污视频的网站| 亚洲色图.com| 色老头·com| 你懂的在线看| 国产三级黄色录像| 午夜在线播放视频在线观看视频| 天天操天天添| 99热最新在线观看| 午夜想想爱午夜剧场| 国产区一区二区三| 性欧美高清极品xx| 狠狠色噜噜综合社区| 久久a毛片| 午夜秒播| 国产午夜三级| www.成人av.com| 男人天堂资源网| 亚洲国产网址| 三级在线国产| 色多多在线观看视频| 色婷婷影视| 欧美色乱| 97国产影院| 511韩国理论片在线观看| 视频三区| 草色网| 国产福利午夜| 欧美午夜大片|