上一小節(jié)介紹了CPU的調(diào)頻,那么其他設(shè)備例如DDR、USB、SPI,還有很多子系統(tǒng)有自己的R核或者M核例如NPU、ISP等都需要調(diào)頻,那必須OPP給安排上,然后調(diào)頻就需要我們這里說的DevFreq框架。
1. 整體介紹
1.1 Devfreq基礎(chǔ)概念
OPP:
復(fù)雜SoC由多個子模塊協(xié)同工作組成,在運行中并非SoC中的所有模塊都需要始終保持最高性能。為方便起見,將SoC中的子模塊分組為域,從而允許某些域以較低的電壓和頻率運行,而其他域以較高的電壓/頻率對運行。對于這些設(shè)備支持的頻率和電壓對,我們稱之為OPP(Operating Performance Point)。對于具有OPP功能的非CPU設(shè)備,本文稱之為OPP device,需要通過devfreq進行動態(tài)的調(diào)頻調(diào)壓。
Devfreq:
devfreq:Generic Dynamic Voltage and Frequency Scaling (DVFS) Framework for Non-CPU Devices。是由三星電子MyungJoo Ham myungjoo.ham@samsung.com,提交到社區(qū)。原理和/deivers/cpufreq 非常近似。但是cpufreq驅(qū)動并不允許多個設(shè)備來注冊,而且也不適合不同的設(shè)備具有不同的governor。devfreq則支持多個設(shè)備,并且允許每個設(shè)備有自己對應(yīng)的governor。
如下圖,devfreq framework是功耗子系統(tǒng)的一部分,與cpufreq,cpuidle,powermanager相互配合協(xié)作,達到節(jié)省系統(tǒng)功耗的目的。
1.2 devfreq框圖
整個devfreq framework中的三大部分組成:
- Devfreq core:devfreq framework的核心,一方面提供需要調(diào)頻調(diào)壓設(shè)備及governor的注冊方法,通過devfreq_list及governor_list分別管理所有的調(diào)頻調(diào)壓設(shè)備及注冊進系統(tǒng)的governor。另一方面,提供具體調(diào)頻調(diào)壓的處理邏輯,通過從governor獲取目標(biāo)頻率,提供update_devfreq方法供governor調(diào)用,從而實現(xiàn)調(diào)頻調(diào)壓。
- Governor:具體的調(diào)頻策略,需要devfreq framework提供的接口進行注冊。內(nèi)核中已經(jīng)支持如下策略:
- simple_ondemand:按需調(diào)整模式;根據(jù)系統(tǒng)負載,動態(tài)地調(diào)整頻率、電壓,平衡性能和功耗。
- Performance:性能優(yōu)先模式,將頻率及電壓調(diào)整到最大。
- Powersave:功耗優(yōu)先模式,將頻率及電壓調(diào)整到最小。
- Userspace:用戶指定模式,用戶通過提供的文件節(jié)點,根據(jù)需要設(shè)置的頻率及電壓。
- Passive:被動模式,使用設(shè)備指定方法做頻率、電壓調(diào)整,或跟隨父devfreq設(shè)備的governor進行調(diào)整。
- Devfreq device driver:需要調(diào)頻調(diào)壓的設(shè)備驅(qū)動,需要通過devfreq framework提供的接口進行注冊。會通過opp庫提供的dts解析函數(shù)解析opp頻率、電壓對。在調(diào)頻的時候,根據(jù)opp庫提供頻率、電壓調(diào)整接口借助clk、regulator框架進行調(diào)頻調(diào)壓。在查詢當(dāng)前頻率時,通過get_cur_freq查詢當(dāng)前的頻率。
可以看到這里DevFreq和CPUFreq的套路基本一樣。
1.3 sysfs用戶接口
這里以DDR為例:/sys/devices/platform/dmc0/devfreq/devfreq0目錄下面
- available_frequencies: 可用的頻率列表
- available_governors:可用的governor
- cur_freq:當(dāng)前頻率
- governor: 當(dāng)前governor
- max_freq:最大頻率
- min_freq :最小頻率
- polling_interval:governor調(diào)度的時間間隔,單位是ms
- target_freq:目標(biāo)頻率
- trans_stat:狀態(tài)調(diào)整表
代碼實現(xiàn)在kernel/drivers/devfreq/devfreq.c中
static struct attribute *devfreq_attrs[] = {
&dev_attr_governor.attr,
&dev_attr_available_governors.attr,
&dev_attr_cur_freq.attr,
&dev_attr_available_frequencies.attr,
&dev_attr_target_freq.attr,
&dev_attr_polling_interval.attr,
&dev_attr_min_freq.attr,
&dev_attr_max_freq.attr,
&dev_attr_trans_stat.attr,
NULL,
};
ATTRIBUTE_GROUPS(devfreq);
2. Linux 關(guān)鍵數(shù)據(jù)結(jié)構(gòu)和API實現(xiàn)
2.1 主要數(shù)據(jù)結(jié)構(gòu)
devfreq數(shù)據(jù)結(jié)構(gòu)和模塊關(guān)系圖
2.1.1 devfreq_dev_profile
devfreq profile結(jié)構(gòu)體,是OPP device注冊到devfreq framework的數(shù)據(jù)結(jié)構(gòu),主要包含OPP設(shè)備的頻率相關(guān)信息和相關(guān)的回調(diào)函數(shù),是devfreq framework和OPP device driver的交互接口。
struct devfreq_dev_profile {
/*devfreq初始化頻率*/
unsigned long initial_freq;
/*governor輪詢的時間間隔,單位ms,0禁止*/
unsigned int polling_ms;
/*devfreq framework設(shè)置OPP device頻率的回掉函數(shù)*/int (*target)(struct device *dev, unsigned long *freq, u32 flags);
/*devfreq framework獲取OPP device負載狀態(tài)的回掉函數(shù)*/int (*get_dev_status)(struct device *dev, struct devfreq_dev_status *stat);
/*devfreq framework獲取OPP device當(dāng)前頻率的回掉函數(shù)*/int (*get_cur_freq)(struct device *dev, unsigned long *freq);
/*devfreq framework退出時對OPP device的回掉函數(shù)*/void (*exit)(struct device *dev);
/*OPP device支持的頻率表*/
unsigned long *freq_table;
/*freq_table表的大小*/
unsigned int max_state;
};
初始化使用:
static struct devfreq_dev_profile xxx_devfreq_dmc_profile = {
.polling_ms = 300,
.target = xxx_dmcfreq_target,
.get_dev_status = xxx_dmcfreq_get_dev_status,
.get_cur_freq = xxx_dmcfreq_get_cur_freq,
};
2.1.2 devfreq_governor
devfreq governor結(jié)構(gòu)體,是governor注冊到devfreq framework的數(shù)據(jù)結(jié)構(gòu),主要包含governor的相關(guān)屬性和具體的函數(shù)實現(xiàn)。是devfreq framework和governor交互接口。
struct devfreq_governor {
struct list_head node;
/*該governor的名稱*/const char name[DEVFREQ_NAME_LEN];
/*governor是否可以切換的標(biāo)志,若為1表示不可切換*/const unsigned int immutable;
/*governor注冊到devfreq framework的算法實現(xiàn)函數(shù),返回調(diào)整后的頻率*/int (*get_target_freq)(struct devfreq *this, unsigned long *freq);
/*governor注冊到devfreq framework的event處理函數(shù),處理start,stop,suspend,resume等event*/int (*event_handler)(struct devfreq *devfreq, unsigned int event, void *data);
};
例如使用simple_ondemand
static struct devfreq_governor devfreq_simple_ondemand = {
.name = "simple_ondemand",
.get_target_freq = devfreq_simple_ondemand_func,
.event_handler = devfreq_simple_ondemand_handler,
};
2.1.3 devfreq
devfreq設(shè)備結(jié)構(gòu)體,這個是devfreq設(shè)備的核心數(shù)據(jù)結(jié)構(gòu)。將上述的OPP device driver的devfreq_dev_profile和governor的devfreq_governor連接到一起,并通過設(shè)備驅(qū)動模型中device類,為user 空間提供接口。
struct devfreq {
struct list_head node;
struct mutex lock;
struct mutex event_lock;
/*其class屬于devfreq_class,父節(jié)點指向使用devfreq的device*/struct device dev;
/*OPP device注冊到devfreq framework的配置信息*/struct devfreq_dev_profile *profile;
/*governor注冊到devfreq framework的配置信息*/const struct devfreq_governor *governor;
/*devfreq的governor的名字*/char governor_name[DEVFREQ_NAME_LEN];
struct notifier_block nb;
/*負載監(jiān)控使用的delayed_work*/struct delayed_work work;
unsigned long previous_freq;
struct devfreq_dev_status last_status;
/*OPP device傳遞給governor的私有數(shù)據(jù)*/void *data; /* private data for governors */
......
};
這個數(shù)據(jù)結(jié)構(gòu)是生成的,沒有初始化值。
2.2 devfreq初始化
三個模塊:framework、governor、device相關(guān)的初始化,其中device靠后。
2.2.1 Devfreq framework初始化
在drivers/devfreq/devfreq.c中,devfreq_init()函數(shù)
static int __init devfreq_init(void)
{
devfreq_class = class_create(THIS_MODULE, "devfreq"); //創(chuàng)建devfreq設(shè)備類
if (IS_ERR(devfreq_class)) {
pr_err("%s: couldn't create class
", __FILE__);
return PTR_ERR(devfreq_class);
}
//創(chuàng)建工作隊列,用于負載監(jiān)控work調(diào)用運行
devfreq_wq = create_freezable_workqueue("devfreq_wq");
if (!devfreq_wq) {
class_destroy(devfreq_class);
pr_err("%s: couldn't create workqueue
", __FILE__);
return -ENOMEM;
}
//加入到subsys_initcall,系統(tǒng)啟動時初始化
devfreq_class->dev_groups = devfreq_groups;
return 0;
}
subsys_initcall(devfreq_init);
devfreq_groups就是上面說的sysfs用戶接口
ATTRIBUTE_GROUPS(devfreq);
#define ATTRIBUTE_GROUPS(_name)
static const struct attribute_group _name##_group = {
.attrs = _name##_attrs,
};
2.2.2 governors 初始化
系統(tǒng)中可支持多個governors,在系統(tǒng)啟動時進行初始化,并注冊到devfreq framework中, 后續(xù)OPP device創(chuàng)建devfreq設(shè)備,會根據(jù)governor名字從已經(jīng)初始化好的governor 列表中,查找對應(yīng)的governor實例。
下面以simple_ondemand為例子,看下初始化過程:在drivers/devfreq/governor_simpleondemand.c中
//填充governor的結(jié)構(gòu)體,不同的governor,會有不同的實現(xiàn)。
static struct devfreq_governor devfreq_simple_ondemand = {
.name = "simple_ondemand",
.get_target_freq = devfreq_simple_ondemand_func,
.event_handler = devfreq_simple_ondemand_handler,
};
static int __init devfreq_simple_ondemand_init(void)
{
return devfreq_add_governor(&devfreq_simple_ondemand);
}
//加入到subsys_initcall,系統(tǒng)啟動時初始化。
subsys_initcall(devfreq_simple_ondemand_init);
初始化將governor加入到devfreq framework的governor列表中。
devfreq_add_governor->list_add(&governor->node, &devfreq_governor_list);
2.2.3 OPP device初始化
這里我們就以DDR為例子 drivers/devfreq/dmc.c中,系統(tǒng)根據(jù)DTS描述添加對應(yīng)驅(qū)動程序
static const struct of_device_id xxxdmc_devfreq_of_match[] = {
{ .compatible = "xxx-dmc" },
{ },
};
MODULE_DEVICE_TABLE(of, xxxdmc_devfreq_of_match);
static struct platform_driver xxx_dmcfreq_driver = {
.probe = xxx_dmcfreq_probe,
.driver = {
.name = "xxx-dmc-freq",
.pm = &xxx_dmcfreq_pm,
.of_match_table = xxxdmc_devfreq_of_match,
},
};
module_platform_driver(xxx_dmcfreq_driver);
xxx_dmcfreq_probe
匹配"xxx-dmc"會執(zhí)行掃描函數(shù)xxx_dmcfreq_probe()
static int xxx_dmcfreq_probe(struct platform_device *pdev)
{
//ctx是自定義的一個數(shù)據(jù)結(jié)構(gòu),用于存放各種DDR dvfs相關(guān)信息
ctx = devm_kzalloc(dev, sizeof(struct xxx_dmcfreq), GFP_KERNEL);
//找到clk信息
struct device *dev = &pdev->dev;
ctx->dmc_clk = devm_clk_get(dev, "dmc_clk");
//負載計數(shù)啟動
ctx->edev = devfreq_event_get_edev_by_phandle(dev, 0);
if (IS_ERR(ctx->edev))
return -EPROBE_DEFER;
ret = devfreq_event_enable_edev(ctx->edev);
//給dev添加opp信息
if (dev_pm_opp_of_add_table(dev)) {
dev_err(dev, "Invalid operating-points in device tree.
");
return -EINVAL;
}
ctx->rate = clk_get_rate(ctx->dmc_clk);
opp = devfreq_recommended_opp(dev, &ctx->rate, 0);
ctx->rate = dev_pm_opp_get_freq(opp);
dev_pm_opp_put(opp);
xxx_devfreq_dmc_profile.initial_freq = ctx->rate;
ctx->devfreq = devm_devfreq_add_device(dev,
&xxx_devfreq_dmc_profile,
"simple_ondemand",
&ctx->ondemand_data);
//計算出最大最小值
ctx->devfreq->min_freq = ULONG_MAX;
ctx->devfreq->max_freq = 0;
max_opps = dev_pm_opp_get_opp_count(dev);
for (i = 0, rate = 0; i < max_opps; i++, rate++) {
opp = dev_pm_opp_find_freq_ceil(dev, &rate);
if (ctx->devfreq->min_freq > rate)
ctx->devfreq->min_freq = rate;
if (ctx->devfreq->max_freq < rate)
ctx->devfreq->max_freq = rate;
}
devm_devfreq_register_opp_notifier(dev, ctx->devfreq);
ctx->dev = dev;
platform_set_drvdata(pdev, ctx);
return 0;
}
pdev的名字是dmc0,對應(yīng)dts中
dmc_0: dmc0 {
compatible = "xxx-dmc";
devfreq-events = <&ddr_monitor0>;
operating-points-v2 = <&dmc_opp_table>;
clocks = <&dmc0_clk>;
clock-names = "dmc_clk";
};
其他信息都是在這里定義的。
struct xxx_dmcfreq {
struct device *dev;
struct devfreq *devfreq;
struct devfreq_simple_ondemand_data ondemand_data;
struct clk *dmc_clk;
struct devfreq_event_dev *edev;
struct mutex lock;
unsigned long rate, target_rate;
};
devm_devfreq_add_device()函數(shù)會調(diào)用devfreq_add_device()進行注冊devfreq
devfreq_add_device devfreq_add_device 創(chuàng)建devfreq設(shè)備的主要流程如下:
//devfreq device申請內(nèi)存空間 初始化devfreq device結(jié)構(gòu)體后,注冊設(shè)備。
device_register(&devfreq->dev);
//根據(jù)傳入的governor名字,從governor列表中,獲取對應(yīng)的governor實例。
governor = find_devfreq_governor(devfreq->governor_name);
//發(fā)送DEVFREQ_GOV_START到governor,開始管理OPP device的頻率。
err = devfreq->governor->event_handler(devfreq, DEVFREQ_GOV_START, NULL);
##2.3 simple_ondemand調(diào)頻
- devfreq framework是大管家負責(zé)監(jiān)控程序的運行,
- governor提供管理算法,
- OPP device提供自身的負載狀態(tài)和頻率設(shè)置的方法實現(xiàn)。
exynos芯片,simple_ondemend策略調(diào)頻調(diào)壓流程圖
2.3.1 governor啟動監(jiān)控
初始化的時候在上面2.2.3過程中,會調(diào)用devfreq_add_device()會給governor發(fā)DEVFREQ_GOV_START消息,simple_ondemand governor收到處理函數(shù)為:
static int devfreq_simple_ondemand_handler(struct devfreq *devfreq,
unsigned int event, void *data)
{
switch (event) {
case DEVFREQ_GOV_START:
devfreq_monitor_start(devfreq);
break;
devfreq_monitor_start()開始啟動調(diào)度程序devfreq_monitor
void devfreq_monitor_start(struct devfreq *devfreq)
{
INIT_DEFERRABLE_WORK(&devfreq->work, devfreq_monitor);
if (devfreq->profile->polling_ms)
queue_delayed_work(devfreq_wq, &devfreq->work,
msecs_to_jiffies(devfreq->profile->polling_ms));
}
EXPORT_SYMBOL(devfreq_monitor_start);
2.3.2 monitor輪詢監(jiān)控
devfreq_monitor每隔devfreq->profile->polling_ms時間,會調(diào)度監(jiān)控程序工作。工作函數(shù)為update_devfreq()
int update_devfreq(struct devfreq *devfreq)
{
//獲取頻率
devfreq->governor->get_target_freq(devfreq, &freq);
devfreq->profile->get_cur_freq(devfreq->dev.parent, &cur_freq);
freqs.old = cur_freq;
freqs.new = freq;
devfreq_notify_transition(devfreq, &freqs, DEVFREQ_PRECHANGE);
//設(shè)置頻率
devfreq->profile->target(devfreq->dev.parent, &freq, flags);
freqs.new = freq;
devfreq_notify_transition(devfreq, &freqs, DEVFREQ_POSTCHANGE);
}
這里獲取頻率和設(shè)置頻率每次都執(zhí)行,不比較頻率是否相同,在設(shè)置處理的時候才比較。
2.3.3 governor計算頻率
devfreq->governor->get_target_freq對應(yīng)函數(shù)為:devfreq_simple_ondemand_func()
static int devfreq_simple_ondemand_func(struct devfreq *df,
unsigned long *freq)
{
//通過device回調(diào)函數(shù),獲取當(dāng)前狀態(tài),然后計算新的頻率
err = devfreq_update_stats(df);
//新頻率的算法,根據(jù)閾值和當(dāng)前負載計算
a = stat->busy_time;
a *= stat->current_frequency;
b = div_u64(a, stat->total_time);
b *= 100;
b = div_u64(b, (dfso_upthreshold - dfso_downdifferential / 2));
*freq = (unsigned long) b;
if (df->min_freq && *freq < df->min_freq)
*freq = df->min_freq;
if (df->max_freq && *freq > df->max_freq)
*freq = df->max_freq;
}
devfreq_update_stats會執(zhí)行:df->profile->get_dev_status(df->dev.parent, &df->last_status); 見2.3.4分析
2.3.4 device獲取和設(shè)置頻率
static struct devfreq_dev_profile xxx_devfreq_dmc_profile = {
.polling_ms = 200,
.target = xxx_dmcfreq_target,
.get_dev_status = xxx_dmcfreq_get_dev_status,
.get_cur_freq = xxx_dmcfreq_get_cur_freq,
};
xxx_dmcfreq_get_dev_status()獲取當(dāng)前device負載信息,根據(jù)算法,返回調(diào)整頻率。
ret = devfreq_event_get_event(dmcfreq->edev, &edata);
if (ret < 0)
return ret;
stat->current_frequency = dmcfreq->rate;
stat->busy_time = edata.load_count;
stat->total_time = edata.total_count;
獲取運行狀態(tài)信息,供monitor中devfreq_update_stats()函數(shù)使用
update_devfreq中最后會設(shè)置頻率xxx_dmcfreq_target() xxx_dmcfreq_target()->clk_set_rate()->dmc_set_rate()->SMC指令 xxx_ddr在dtsi中定義
xxx_ddr: xxx_ddr {
compatible = "xxx-ddr";
method = "smc";
fid = <0x82000008>;
test_cmd = <0x00000000>;
get_channels_cmd = <0x00000001>;
set_cmd = <0x00000010>;
get_cmd = <0x00000011>;
};
執(zhí)行這個smc指令后返回值為2,是channel的最大值,用于校驗。
注冊完了之后,clk會獲取rate調(diào)用dmc_recalc_rate()函數(shù),發(fā)送smc命令0x82000008 0x00000011 0 獲取了rate值為4266000 這里利用ATF把這個寄存器設(shè)置給封裝了。
3. ATF相關(guān)軟件標(biāo)準(zhǔn)流程
為什么操作的動作要放在ATF里面?
- 為了安全,進入安全世界才能操作,普通應(yīng)用app進不去
- 為了進入AON(Always ON)一直運行的非DDR區(qū)域運行,例如SRAM
0x82000008 SMC可以查詢ARM的SMC手冊
可以參考atf中rk的實現(xiàn),ddr_get_rate()函數(shù) 在plat/rockchip/common/rockchip_sip_svc.c中
/* Define a runtime service descriptor for fast SMC calls */
DECLARE_RT_SVC(
rockchip_sip_svc,
OEN_SIP_START,
OEN_SIP_END,
SMC_TYPE_FAST,
NULL,
sip_smc_handler
);
sip_smc_handler--》rockchip_plat_sip_handler--》ddr_smc_handler
uint32_t ddr_smc_handler(uint64_t arg0, uint64_t arg1,
uint64_t id, uint64_t arg2)
{
switch (id) {
case DRAM_SET_RATE:
return ddr_set_rate((uint32_t)arg0);
case DRAM_ROUND_RATE:
return ddr_round_rate((uint32_t)arg0);
case DRAM_GET_RATE:
return ddr_get_rate();
case DRAM_SET_ODT_PD:
dram_set_odt_pd(arg0, arg1, arg2);
break;
default:
break;
}
return 0;
}
這里對于DDR的調(diào)頻代碼需要放到AON區(qū)域,系統(tǒng)中除了DDR還有SRAM,DDR調(diào)頻的代碼不能放到DDR里面,或者使用硬件DMC實現(xiàn)。
DMC調(diào)頻 是用軟件來升頻或者降頻,軟件是運行在SOC的system controller上的,常常是Cortex-M CPU,調(diào)頻的時候DMC不會阻止CPU transfers,DMC自己有buffer,可以繼續(xù)接收,只是不會發(fā)給DDR,這些對CPU是透明的,但如果buffer滿了的話,CPU自然就發(fā)不了了,調(diào)頻之后可能需要ddr calibration,我們也都是通過DMC驅(qū)動程序來完成的,只是在做這些操作的時候并不會讓系統(tǒng)停下來。
后記
學(xué)習(xí)ARMV8,RK也就是rockchip是不錯的板子選擇,還記得以前買過螢火蟲的rk板卡,所有軟硬件資料都很全,還挺不錯的。這里的電源管理也算是驅(qū)動,學(xué)習(xí)驅(qū)動還是能有個板子調(diào)下,主要區(qū)分是32位還是64位,目前的大型SoC基本都是ARMv8的64位,甚至ARMv9了。
-
電源管理
+關(guān)注
關(guān)注
115文章
6185瀏覽量
144637 -
sram
+關(guān)注
關(guān)注
6文章
768瀏覽量
114734 -
DDR
+關(guān)注
關(guān)注
11文章
712瀏覽量
65404
原文標(biāo)題:電源管理入門-7 DevFreq
文章出處:【微信號:OS與AUTOSAR研究,微信公眾號:OS與AUTOSAR研究】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論