本期為大家?guī)韊IQ Time Series Studio工具使用攻略-輸入文件格式的介紹。
時(shí)間序列數(shù)據(jù)與視覺和語音數(shù)據(jù)不同。視覺數(shù)據(jù)通常由三個(gè)或一個(gè)通道組成,每個(gè)通道具有固定的寬度和高度。語音數(shù)據(jù)則始終保持一個(gè)或兩個(gè)通道,輸入為麥克風(fēng)波形。時(shí)間序列數(shù)據(jù)通常來自一個(gè)或多個(gè)傳感器,通道的數(shù)量是不同的,例如:
原始傳感器數(shù)據(jù)可以有不同的采樣率,如何選擇最佳采樣率?
原始傳感器數(shù)據(jù)輸出是按照時(shí)間順序并連續(xù)的。如何更好地將連續(xù)數(shù)據(jù)分割成段數(shù)據(jù)?
多個(gè)傳感器生成的異構(gòu)數(shù)據(jù)集并非機(jī)器學(xué)習(xí)算法期待的的數(shù)據(jù)集。
視覺和語音數(shù)據(jù)是人類可理解的,而時(shí)間序列數(shù)據(jù)則以浮點(diǎn)格式呈現(xiàn),難以直接閱讀和理解。
因此算法設(shè)計(jì)與視覺和語音AI/ML有所不同。
為了了解時(shí)間序列數(shù)據(jù),以3軸加速度傳感器的數(shù)據(jù)樣本為例:
可以從圖表中得到:
傳感器有三個(gè)通道,分別命名為C1、C2、C3軸,大多數(shù)傳感器可能只有一個(gè)通道。
一個(gè)采樣點(diǎn)包含每個(gè)通道的一個(gè)數(shù)據(jù)點(diǎn),由 C1、C2、C3 組成。
一個(gè)采樣時(shí)間窗口包含多個(gè)按時(shí)間順序排列的采樣點(diǎn),順序?yàn)?C1 C2 C3 C1 C2 C3…C1 C2 C3。
整個(gè)數(shù)據(jù)集由多個(gè)隨機(jī)順序的時(shí)間窗口組成。
同一傳感器的每個(gè)通道都在相同的采樣率下運(yùn)行,因此所有通道的數(shù)據(jù)規(guī)模都是相同的。
連續(xù)數(shù)據(jù):
硬件傳感器始終按時(shí)間順序以連續(xù)格式輸出原始數(shù)據(jù),見下圖:
建議用戶按上述格式保存連續(xù)的原始數(shù)據(jù),并確保每行代表一個(gè)時(shí)間增量,建議使用空格作為分隔符。逐行加載數(shù)據(jù)時(shí)按時(shí)間順序執(zhí)行。
分段數(shù)據(jù):
工具支持分段數(shù)據(jù)輸入,用戶可以自行處理數(shù)據(jù)或通過"Data Logging"采集連續(xù)數(shù)據(jù)并通過"Data Intelligence"進(jìn)行數(shù)據(jù)分析并保存為分段數(shù)據(jù)。以下圖表解釋了分段數(shù)據(jù)的格式。
每一行作為一個(gè)樣本,樣本點(diǎn)按通道順序排列。
多個(gè)按行排序的樣本組成一個(gè)訓(xùn)練數(shù)據(jù)集,用于算法研究。
逐行分割的數(shù)據(jù)樣本可以保持隨機(jī),但里面的每個(gè)樣本必須保持時(shí)間順序。
可以選擇多個(gè)數(shù)據(jù)文件作為一種類型導(dǎo)入工具進(jìn)行訓(xùn)練和測(cè)試,數(shù)據(jù)加載器會(huì)自動(dòng)合并。
Time SeriesStudo 數(shù)據(jù)格式
需要用戶導(dǎo)入正確的數(shù)據(jù)集,工具僅支持CSV文件格式,數(shù)據(jù)集以分段格式保存,數(shù)據(jù)間以:空格,逗號(hào),Tab, 分號(hào)隔開,對(duì)于不同的訓(xùn)練任務(wù),請(qǐng)按照以下指南導(dǎo)入適當(dāng)?shù)腃SV格式文件。
異常檢測(cè)&分類算法:
數(shù)據(jù)文件格式:每行一個(gè)樣本,包含所有通道數(shù)據(jù),樣本由分隔符(空格、逗號(hào)、tab和分號(hào))分隔。這是一個(gè)數(shù)據(jù)文件示例,其中包含 m+1個(gè)樣本,每個(gè)樣本有 n+1個(gè)采樣點(diǎn),每個(gè)采樣點(diǎn)的數(shù)據(jù)包含 3 個(gè)通道(x、y 和 z)。
對(duì)于異常檢測(cè),必須導(dǎo)入兩類數(shù)據(jù)文件:正常樣本和異常樣本文件。每個(gè)類必須加載至少一個(gè)數(shù)據(jù)文件。
對(duì)于分類項(xiàng)目,必須導(dǎo)入 n (n>=1) 類數(shù)據(jù)文件。每個(gè)類必須加載至少一個(gè)數(shù)據(jù)文件。
異常檢測(cè)和分類需要導(dǎo)入不同類別的樣本數(shù)據(jù)文件,為了得到可信的訓(xùn)練結(jié)果,最好保持各個(gè)類別的樣本數(shù)量總體平衡。
回歸算法
數(shù)據(jù)文件格式:每行一個(gè)樣本,包含所有通道數(shù)據(jù),樣本之間用分隔符(空格、逗號(hào)、制表符和分號(hào))分隔。前 k+1 (k 是Input/Outputtargets參數(shù)值,在創(chuàng)建回歸項(xiàng)目時(shí)設(shè)置,k >= 0)列是要預(yù)測(cè)的目標(biāo)值。這是一個(gè)數(shù)據(jù)文件示例,中包含 m+1個(gè)樣本,每個(gè)樣本有 n+1個(gè)采樣點(diǎn),每個(gè)采樣點(diǎn)的數(shù)據(jù)包含 3 個(gè)通道(x、y 和 z)和 k+1個(gè)目標(biāo)。
-
傳感器
+關(guān)注
關(guān)注
2551文章
51089瀏覽量
753475 -
算法
+關(guān)注
關(guān)注
23文章
4612瀏覽量
92878 -
數(shù)據(jù)格式
+關(guān)注
關(guān)注
0文章
30瀏覽量
8893 -
Studio
+關(guān)注
關(guān)注
2文章
190瀏覽量
28682
原文標(biāo)題:eIQ Time Series Studio工具使用攻略-輸入文件格式
文章出處:【微信號(hào):NXP_SMART_HARDWARE,微信公眾號(hào):恩智浦MCU加油站】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論