有声小说在线收听网,听中国有声小说,辰东

OctoLingua的目標是提供一種服務，支持從多個粒度級別（從文件級別或片段級別到潛在的行級語言檢測和分類）進行強大可靠的語言檢測。最終，該服務可以支持代碼搜索和共享、語法高亮顯示和差異渲染等，旨在支持開發人員進行日常開發工作，同時幫助編寫高質量的代碼。

GitHub上現在托管有超過300種編程語言。從最廣泛使用的語言比如Python，Java、Javascript等，到一些非常非常小眾的語言例如Befunge，應有盡有。

但豐富的語種帶來的一個挑戰就是，如何即時鑒別它們？這影響到如何更好的搜索、發現其中的安全漏洞或者采取什么樣的語法高亮。

而且編程語言識別起來，看似簡單實則非常困難。文件擴展名是一個非常重要的區分標準，但很多時候非常混亂。比如“.pl”, “.pm”, “.t”, “.pod”，都跟Perl有關系；而“.h”，C、C++、Objective-C也都有在用。

甚至還會出現沒有擴展名的情況，例如一些可執行腳本（curl，get，makefile等）。

Linguist已經可以完成84%的語言檢測

那么GitHub是怎么解決上述問題呢？GitHub高級數據科學家Kavita Ganesan首先介紹了目前GitHub官方使用的語言鑒別工具：Linguist。

Linguist是一個基于Ruby的應用程序，它使用多種策略進行語言檢測。比如利用命名約定和文件擴展名，考慮Vim或Emacs模型，以及文件頂部的內容（shebang）等。

Linguist通過啟發式方法，通過一個小樣本數據訓練的樸素貝葉斯分類器來進行語言消歧義。

雖然Linguist在文件級語言預測方面做得很好（準確率為84％），但是當文件使用非常特殊的命名約定時，準確率就大幅下降了。更重要的是，當遇到沒有提供文件擴展名的情況比如Gist、README文件、issue或者拉取請求中的代碼片段，Linguist就無能為力了。

人工智能幫助完成剩下的語言檢測工作

為了使語言檢測能夠更加健壯和可維護，GitHub又開發了一款名為OctoLingua的機器學習分類器，它基于人工神經網絡（ANN）架構，可以處理棘手場景中的語言預測。

該模型的當前版本能夠對GitHub托管的前50種語言進行預測，并在準確性和性能方面超越Linguist。

OctoLingua從頭開始使用Python + Keras，以及TensorFlow后端進行構建，非常準確、健壯且易于維護。

數據源

OctoLingua的當前版本使用了從Rosetta Code檢索的文件和內部眾包的一組質量庫的訓練。語言集限制為GitHub上托管的Top 50。

Rosetta Code是一個出色的入門數據集，因為它包含用不同編程語言表示的相同任務的源碼。例如，生成Fibonacci序列的任務可以用C、C ++、CoffeeScript、D、Java、Julia等表示。

但是，跨語言的覆蓋范圍并不統一，其中某些語言只有少量文件而某些文件的填充程度過于稀疏。因此，需要增加一些額外來源的訓練集，以提高語言覆蓋率和性能。

目前添加新語言的流程現已完全自動化，以編程方式從GitHub上的公共倉庫收集源碼。選擇滿足最低資格標準的倉庫，例如具有最小數量的分支，以及涵蓋目標語言和涵蓋特定文件擴展名。

對于此階段的數據收集，使用Linguist的分類確定倉庫的主要語言。

特點：利用先驗知識

傳統上，對于神經網絡的文本分類問題，通常采用基于存儲器的體系結構，例如遞歸神經網絡（RNN）和長短期記憶網絡（LSTM）。

但是，鑒于編程語言在詞匯、評論風格、文件擴展名、結構、庫導入風格和其他微小差異，GitHub選擇了一種更簡單的方法：通過以表格形式提取某些相關功能來利用所有這些信息，并投喂給分類器。目前提取的功能如下：

每個文件的前五個特殊字符

每個文件前20個令牌

文件擴展名

存在源碼文件中常用的某些特殊字符如冒號、花括號和分號

人工神經網絡（ANN）模型

上述特征作為使用具有Tensorflow后端的Keras構建的雙層人工神經網絡的輸入。

下圖顯示特征提取步驟為分類器生成n維表格輸入。當信息沿著網絡層移動時，它通過dropout正則化并最終產生51維輸出，該輸出表示給定代碼在前50種GitHub語言中每一種寫入的預測概率加不寫入的概率。

GitHub使用90％的數據集進行大約8個epochs的訓練。此外，在訓練步驟中從訓練數據中刪除了一定百分比的文件擴展名，以鼓勵模型從文件的詞匯表中學習，而不是過度填充文件擴展功能。

基準

下圖顯示了在同一測試集上計算的OctoLingua和Linguist的F1得分（精確度和召回之間的調和平均值）。

這里展示三個測試。第一個是測試集不受任何干預；第二個測試使用同一組測試文件，刪除了文件擴展名信息；第三個測試也使用相同的文件集，但這次文件擴展名被加擾，以便混淆分類器（例如，Java文件可能有“.txt”擴展名、Python文件可能具有“.java”）擴展名。

在測試集中加擾或刪除文件擴展名的目的是評估OctoLingua在刪除關鍵功能或誤導時對文件進行分類的穩健性。不嚴重依賴擴展的分類器對要點和片段進行分類非常有用，因為在這些情況下，人們通常不提供準確的擴展信息（例如，許多與代碼相關的文件具有.txt擴展名）。

下表顯示了OctoLingua如何在各種條件下保持良好的性能，表明該模型主要從代碼的詞匯表中學習，而不是從元信息（即文件擴展名）中學習。但是沒有擴展名的話Linguist完全無法鑒別。

上圖是OctoLingua與Linguist在同一測試集上的表現。

在訓練期間刪除文件擴展名的效果

如前所述，在訓練期間，從訓練數據中刪除了一定百分比的文件擴展名，以鼓勵模型從文件的詞匯表中學習。下表顯示了模型在訓練期間刪除了不同分數的文件擴展名的性能。

上圖在三個測試變體中刪除了不同百分比的文件擴展名后，OctoLingua的表現

請注意，在訓練期間沒有刪除文件擴展名的情況下，OctoLingua對沒有擴展名和隨機擴展名的測試文件的性能與常規測試數據相比差距很大。而一旦在刪除某些文件擴展名的數據集上訓練模型時，模型性能在修改的測試集上的差距就沒有那么大。

這證實了在訓練時從一小部分文件中刪除文件擴展名，會使分類器從詞匯表中學到更多。它還表明，文件擴展功能雖然具有高度預測性，但卻傾向于支配并阻止將更多權重分配給內容。

添加新語言支持

在OctoLingua中添加新語言非常簡單。它首先獲取新語言的大量文件，這些文件分為訓練和測試集，然后通過預處理器和特征提取器運行。這個新的訓練和測試裝置被添加到現有的訓練和測試數據庫中。新的測試裝置允許驗證模型的準確性是否仍然可以接受。

上圖使用OctoLingua添加新語言、

未來計劃

截至目前，OctoLingua正處于“先進的原型設計階段”。我們的語言分類引擎已經強大且可靠，但還不支持我們平臺上的所有編碼語言。除了擴大語言支持 - 這將是相當簡單的 - 我們的目標是在各種粒度級別啟用語言檢測。我們當前的實現已經允許我們通過對機器學習引擎的一些小修改來對代碼片段進行分類。將模型帶到可以可靠地檢測和分類嵌入式語言的階段并不是太遙遠。

我們也在考慮開源我們模型的可能性，如果您有興趣，我們很樂意聽取社區的意見。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

編程語言

編程語言

+關注

關注
10

文章
1947

瀏覽量
34848
人工智能

人工智能

+關注

關注
1792

文章
47497

瀏覽量
239214
GitHub

GitHub

+關注

關注
3

文章
473

瀏覽量
16503

原文標題：GitHub機器學習代碼分類器：僅憑代碼輕松鑒別300種編程語言

文章出處：【微信號：AI_era，微信公眾號：新智元】歡迎添加關注！文章轉載請注明出處。

gitee 支持的編程語言有哪些

Gitee（碼云）是一個基于 Git 的代碼托管和研發協作平臺，類似于 GitHub 和 GitLab。它支持多種編程語言，允許開發者托管和

發表于 01-06 09:50 ?90次閱讀

gitee 與 GitHub 的比較

在軟件開發領域，代碼托管平臺扮演著至關重要的角色。它們不僅提供了代碼存儲和版本控制的功能，還促進了團隊協作和開源項目的共享。Gitee（碼云）和GitHub是兩個最著名的代碼托管服務提供商，它們在

發表于 01-06 09:47 ?93次閱讀

Triton編譯器支持的編程語言

編寫和優化深度學習代碼。Python是一種廣泛使用的高級編程語言，具有簡潔易讀、易于上手、庫豐富等特點，非常適合用于深度學習應用的開發。二、領域特定語言（DSL） Triton也提供

發表于 12-24 17:33 ?393次閱讀

Gitee:玩轉代碼托管與協作的高效指南

1、簡介眾所周知，GitHub 服務器在國外，如果網絡不好的話，嚴重影響使用體驗，甚至會出現登錄不上的情況。針對這個情況，可以使用國內的項目托管平臺—— Gitee 碼云，來替代 Gith

發表于 12-24 11:39 ?846次閱讀

超級干貨！本地搭建代碼托管平臺Gitea

1關于GiteaGitea是一個輕量級的Git托管服務，也就是基于Git的代碼托管平臺，類似于GitHub、Gitee等。Gitea相對于其他代碼托管平臺，是一個可以本地部署的開源項目

發表于 12-19 19:33 ?245次閱讀

編程語言的誤區與常見問題

：選擇編程語言時，應考慮項目需求、個人興趣以及語言的適用性。例如，如果你對Web開發感興趣，那么學習JavaScript可能是一個好選擇。認識到沒有一種

發表于 11-15 09:35 ?342次閱讀

MCU編程語言和開發環境介紹

MCU編程語言 MCU編程語言是用于編寫MCU程序的高級編程語言，它們使得開發者能夠更高效地開

發表于 11-01 11:51 ?925次閱讀

C語言與其他編程語言的比較

C語言作為一種歷史悠久的編程語言，自其誕生以來，一直在軟件開發領域扮演著重要角色。它以其高效、靈活和可移植性強的特點，成為了系統級編程的首選

發表于 10-29 17:30 ?324次閱讀

plc的編程語言主要有哪三種

PLC（可編程邏輯控制器）的編程語言多種多樣，但其中最為常用和廣泛認知的三種主要編程語言是梯形圖

發表于 10-21 17:04 ?1980次閱讀

GitHub推出GitHub Models服務,賦能開發者智能選擇AI模型

8月2日，全球領先的代碼托管平臺GitHub宣布了一項重大創新——GitHub Models服務的正式推出。該服務被定位為AI時代的工程師助手，旨在幫助全球超過1億的

發表于 08-02 15:39 ?628次閱讀

abb工業機器人的編程語言是什么

ABB工業機器人的編程語言主要是RAPID（Robot Application Programming Interface for Development），它是一種高級編程

發表于 06-16 16:49 ?2684次閱讀

PLC編程語言和C語言的區別

在工業自動化和計算機編程領域中，PLC（可編程邏輯控制器）編程語言和C語言各自扮演著重要的角色。盡管兩者都是

發表于 06-14 17:11 ?3053次閱讀

fpga三種編程語言

FPGA（現場可編程門陣列）的編程涉及到三種主要的硬件描述語言（HDL）：VHDL（VHSIC Hardware Description Language）、Verilog以及Syst

發表于 03-15 14:36 ?1160次閱讀

fpga芯片用什么編程語言

FPGA芯片主要使用的編程語言包括Verilog HDL和VHDL。這兩種語言都是硬件描述語言，用于描述數字系統的結構和行為。

發表于 03-14 16:07 ?1558次閱讀

四種編程語言之間的區別和聯系

編程語言是一種人與計算機之間進行交流的方式，不同的編程語言有著不同的特點和用途。本文將對四種常見

發表于 02-05 14:16 ?1654次閱讀

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

GitHub上現在托管有超過300種編程語言

評論

gitee 支持的編程語言有哪些

gitee 與 GitHub 的比較

Triton編譯器支持的編程語言

Gitee:玩轉代碼托管與協作的高效指南

超級干貨！本地搭建代碼托管平臺Gitea

編程語言的誤區與常見問題

MCU編程語言和開發環境介紹

C語言與其他編程語言的比較

plc的編程語言主要有哪三種

GitHub推出GitHub Models服務,賦能開發者智能選擇AI模型

abb工業機器人的編程語言是什么

PLC編程語言和C語言的區別

fpga三種編程語言

fpga芯片用什么編程語言

四種編程語言之間的區別和聯系