Raspberry pico 是一款双核cortex-m0的处理器,在RT-Thread提供的bsp中目前是默认采用libcpu/arm/cortex-m0,其并没有对多核进行支持。在Coremark的测试中pico的性能很一般,只用一个核心实在是太浪费了,所以下面用一种不太优雅的方式基本实现Pico的SMP,简单测试没有问题,当然由于萌新对于内核的理解程度有限,总是可能存在一些问题,不过总算跑起来了不是😍
由于官方的文件完全没有支持Cortex-M的多核,可能设计之初也没有考虑,移植过程感觉蛮别扭的。
首先是几个基本的函数对接:
rt_hw_cpu_id
:最首先需要实现的一个也是最容易的实现的一个,直接访问pico的sio
就可以int rt_hw_cpu_id(void)
{
return sio_hw->cpuid;
}
rt_hw_interrupt_disable/enable
: 在SMP框架当中,关闭中断不只是屏蔽中断,其还要通过spinlock来保证对资源访问的互斥,对于此rtt在rthw
通过宏定义将其替换,并且重新命名原来的中断控制函数#define rt_hw_interrupt_disable rt_cpus_lock
#define rt_hw_interrupt_enable rt_cpus_unlock
#ifdef RT_USING_SMP
#define rt_hw_interrupt_disable rt_hw_local_irq_disable
#define rt_hw_interrupt_enable rt_hw_local_irq_enable
#endif
rt_hw_spin_lock_xxx
:自旋锁,用于多核之间的资源保护,在rp2040中芯片提供硬件spinlock使用,这一部分同样使用pico-sdk的api即可,选择unsafe
版本void rt_hw_spin_lock(rt_hw_spinlock_t *lock)
{
spin_lock_unsafe_blocking((spin_lock_t *)lock->slock);
}
void rt_hw_spin_unlock(rt_hw_spinlock_t *lock)
{
spin_unlock_unsafe((spin_lock_t *)lock->slock);
}
rt_hw_secondary_cpu_up
:在主CPU启动后,运行调度器,调度器会调用main线程运行,main线程运行前会首先调用该api来启动第二个核心。Rp2040两个核心其实是上电以后同时启动的,CPU-1会在bootrom中被拦截下来进入等待状态,我们可以通过sio的fifo来唤醒第二个核心,pico-sdk中提供了api,可以直接指定CPU-1唤醒后执行的函数。在唤醒过程中同时使能两个CPU的SIO中断,用来进行IPI_Handler.void secondary_cpu_c_start(void) // 其中CPU-1,该函数为入口
{
irq_set_enabled(SIO_IRQ_PROC1,RT_TRUE); // 启动该核心的SIO中断,用于IPI
systick_config(frequency_count_khz(CLOCKS_FC0_SRC_VALUE_ROSC_CLKSRC)*10000/RT_TICK_PER_SECOND); // 配置该核心的systick
rt_hw_spin_lock(&_cpus_lock);
rt_system_scheduler_start();
}
void rt_hw_secondary_cpu_up(void)
{
multicore_launch_core1(secondary_cpu_c_start); // 启动CPU-1
irq_set_enabled(SIO_IRQ_PROC0,RT_TRUE); // 打开CPU-0的SIO中断
}
在需要调度的时候,CPU之间可能会互相通知让其进行调度,该部分通过rt_hw_ipi_send
和rt_hw_ipi_handler
对接,
#define IPI_MAGIC 0x5a5a
void rt_hw_ipi_send(int ipi_vector, unsigned int cpu_mask)
{
sio_hw->fifo_wr = IPI_MAGIC; // 通知其他CPU调度
}
// 两个CPU SIO实际执行的部分,用来进行调度和一些其他需要沟通的事情
void rt_hw_ipi_handler(void)
{
uint32_t status = sio_hw->fifo_st;
// 清楚中断标志
if ( status & (SIO_FIFO_ST_ROE_BITS | SIO_FIFO_ST_WOF_BITS) )
{
sio_hw->fifo_st = 0;
}
if ( status & SIO_FIFO_ST_VLD_BITS )
{
if ( sio_hw->fifo_rd == IPI_MAGIC )
{
rt_schedule(); // 如果正确接受指令,进行调度
}
}
}
上面对接的函数都比较基础,其次是对接上下文的汇编代码部分,这一部分就不是特别顺利了。简单梳理一下Cortex-M的调度流程,rt_schedule
获取最高优先级的任务然后使能PendSV
中断并在全局变量中保存调度信息,最后在完成高优先级中断(或者直接进行PendSV
)后进行实际的上下文切换,在SMP中基本同理,但是由于RT-Thread的SMP是针对Cortex-A提供的,这里出现了一些问题。
首先在调度中必须关注一个函数,rt_cpus_lock_status_restore(thread)
,其将要调度的线程绑定到当前的cpu上,调用该函数的位置是一个关键问题
void rt_cpus_lock_status_restore(struct rt_thread *thread)
{
struct rt_cpu* pcpu = rt_cpu_self();
pcpu->current_thread = thread; // 绑定CPU到当前核心
if (!thread->cpus_lock_nest) // 用于第一次调度是解锁spinlock
{
rt_hw_spin_unlock(&_cpus_lock);
}
}
在Cortex-A中其在rt_hw_context_switch
中被调用,这对于Cortex-A是可行的,因为在非中断情况下A核会直接进行线程切换而不需要PendSV,但是对于Cortex-M核心放在这个位置会存在下面一个问题:PendSV是中断,所以需要使能中断才能运行,因此在rt_hw_context_switch
后立马就有一个rt_hw_interrupt_enable
,如果M核工作在非SMP框架下这是没有问题的,但是在SMP框架下当前的线程已经变了,而rt_hw_interrupt_enable
是同当前线程绑定的,所以这里会导致CPU的scheduler_lock_nest,cpus_lock_nest
错乱,从而导致调度器不能正常工作
rt_base_t rt_cpus_lock(void)
{
rt_base_t level;
struct rt_cpu* pcpu;
level = rt_hw_local_irq_disable();
pcpu = rt_cpu_self();
if (pcpu->current_thread != RT_NULL)
{
register rt_ubase_t lock_nest = pcpu->current_thread->cpus_lock_nest;
pcpu->current_thread->cpus_lock_nest++; // 会锁的nest加在变量上
if (lock_nest == 0)
{
pcpu->current_thread->scheduler_lock_nest++;
rt_hw_spin_lock(&_cpus_lock);
}
}
return level;
}
基于上面的描述,我考虑把rt_cpus_lock_status_restore
放在PendSV
中进行调用,这样就可以保证scheduler_lock_nest
工作的正确性,但是导致一个更大的问题!!!在rt_schedule
函数中,如果中断还没有使能的情况下重复调用rt_schedule
(systick中多层中断)会导致已经被标记为RUNNING
的线程无法正常被加入到就绪列表中。因为在上一次的rt_schedule
中线程已经被移除了,其等待在PendSV
中绑定到当前CPU的时候rt_schedule
再次到来,其应该被重新加入到就绪列表(如果优先级低的话),但是schudler
是基于当前CPU上的线程来管理的,由于之前被调度的线程当前还没有绑定,所以线程变成游离状态而无法被调度,就会出现下面的情况:
thread cpu bind pri status sp stack size max used left tick error
-------- --- ---- --- ------- ---------- ---------- ------ ---------- ---
i-7 0 2 17 running 0x000000b4 0x00000200 35% 0x00000014 -02
i-6 0 2 16 running 0x000000b4 0x00000200 35% 0x00000014 -02
i-5 0 2 15 running 0x000000b4 0x00000200 35% 0x00000014 -02
i-4 0 2 14 running 0x000000b4 0x00000200 35% 0x00000014 -02
i-3 0 2 13 running 0x000000b4 0x00000200 35% 0x00000014 -02
i-2 0 2 12 running 0x000000b4 0x00000200 35% 0x00000014 -02
i-1 0 2 11 running 0x000000b4 0x00000200 35% 0x00000014 -02
i-0 0 2 10 running 0x000000b4 0x00000200 35% 0x00000014 -02
tshell 1 2 20 running 0x000000e4 0x00001000 17% 0x0000000a 000
tsystem N/A 2 30 suspend 0x000000b4 0x00000100 73% 0x00000020 000
tidle1 N/A 1 31 ready 0x00000060 0x00000100 37% 0x00000020 000
tidle0 0 0 31 running 0x00000058 0x00000100 34% 0x00000005 000
main N/A 2 10 suspend 0x000000e8 0x00000800 17% 0x00000014 000
所以rt_cpus_lock_status_restore(thread)
只能在rt_hw_context_switch
中被调用,但这种情况下我们需要处理scheduler_nest
和cpus_lock_nest
错乱的问题,由于SMP框架将nest
绑定到线程上,但实际上锁针对的还是CPU,我也认为将太绑定到CPU上更合适,为了不修改内核源码的情况下实现,我在rt_hw_context_switch
中将当前cpu线程的nest
绑定到需要调度的线程上,这样就等价于把nest
绑定到CPU上,此时就可以正常工作了。
struct __thread_switch_status
{
uint32_t from;
uint32_t to;
uint32_t flag;
}_thread_switch_array[2];
extern void rt_cpus_lock_status_restore(struct rt_thread *thread);
void thread_switch_status_store(uint32_t from, uint32_t to, rt_thread_t thread)
{
int cpu_id = sio_hw->cpuid;
if ( _thread_switch_array[cpu_id].flag == 0)
{
_thread_switch_array[cpu_id].from = from;
_thread_switch_array[cpu_id].flag = 1;
}
_thread_switch_array[cpu_id].to = to;
if ( from != 0 )
{
rt_thread_t currrent_cpu_thread = rt_thread_self();
thread->cpus_lock_nest = currrent_cpu_thread->cpus_lock_nest;
thread->scheduler_lock_nest = currrent_cpu_thread->scheduler_lock_nest;
thread->critical_lock_nest = currrent_cpu_thread->critical_lock_nest;
}
rt_cpus_lock_status_restore(thread);
}
// rt_hw_context_switch
MOV R4, LR
BL thread_switch_status_store
MOV LR, R4
解决上述问题后知剩下最后一个问题,我们前文的讨论都是基于非中断情况下的,对于Cortex-M而言中断中的调度和非中断中的调度是一致的,都是基于PendSV
实现的,所以我们rt_hw_context_switch,rt_hw_context_interrupt_switch
用一套一样的代码就可以,但是在SMP框架中这两个部分具有两个调度函数,在中断中调用rt_schedule
,SMP框架会直接跳过当前调度并且给当前CPU打上中断调度标记,最后在离开中断的时候调用rt_scheduler_do_irq_switch(void *context)
来实现,对于Cortex-A的中断结构来说这是没有问题的,只要保证switch能够在本次调度过程中直接切换就行,但是对于Cortex-M这样就不太合适,我们可以把NVIC弄成统一IRQ的样子,但是我觉得直接废弃rt_scheduler_do_irq_switch
更加合适。
void rt_schedule()
{
....
/* whether do switch in interrupt */
if (pcpu->irq_nest)
{
pcpu->irq_switch_flag = 1;
rt_hw_interrupt_enable(level);
goto __exit;
}
...
}
void rt_scheduler_do_irq_switch(void *context);
为了使得调度器不知道我们在中断状态,我把rt_interrupt_enter/leave
注释掉了(应该在涉及内核调度的中断中全部采用这种办法),这样irq_nest
就一直是0
,调度器也不会去调用do_irq了,其实我们不用这个处理方法也能够工作的,但是中断中就没法调度了,实时性也没法保障。按照我的理解在Cortex-M中这样的处理并不会有太大的问题,但是总不太好是吧hh
void isr_systick(void)
{
/* enter interrupt */
//rt_interrupt_enter();
rt_tick_increase();
/* leave interrupt */
//rt_interrupt_leave();
}
最后基于上面全部的修改,RP2040的SMP能够正常工作,小灯能够按照正常闪烁。
\ | /
- RT - Thread Operating System
/ | \ 4.1.1 build May 1 2022 20:00:57
2006 - 2022 Copyright by RT-Thread team
Hello, RT-Thread!
msh >ps
thread cpu bind pri status sp stack size max used left tick error
-------- --- ---- --- ------- ---------- ---------- ------ ---------- ---
i-7 N/A 2 17 suspend 0x000000b4 0x00000200 35% 0x00000012 000
i-6 N/A 2 16 suspend 0x000000b4 0x00000200 35% 0x00000014 000
i-5 N/A 2 15 suspend 0x000000b4 0x00000200 35% 0x00000014 000
i-4 N/A 2 14 suspend 0x000000b4 0x00000200 35% 0x00000014 000
i-3 N/A 2 13 suspend 0x000000b4 0x00000200 35% 0x00000013 000
i-2 N/A 2 12 suspend 0x000000b4 0x00000200 35% 0x00000014 000
i-1 N/A 2 11 suspend 0x000000b4 0x00000200 35% 0x00000014 000
i-0 N/A 2 10 suspend 0x00000094 0x00000200 35% 0x00000014 000
tshell 1 2 20 running 0x000002dc 0x00001000 17% 0x00000009 000
tsystem N/A 2 30 suspend 0x000000b4 0x00000100 73% 0x00000020 000
tidle1 N/A 1 31 ready 0x00000060 0x00000100 37% 0x00000020 000
tidle0 0 0 31 running 0x00000058 0x00000100 34% 0x0000000f 000
main N/A 2 10 suspend 0x000000e8 0x00000800 17% 0x00000014 000
msh >
我对于RT-Thread的理解还很有限,萌新,有很多问题我可能预料不到,这样的实现方式我也觉得不太优雅,不过总算是跑起来了(肝了两天还是有点累emmm)。后续会优化整理并且再经过一段时间的测试,或许能够喜提自己的第一个RT-Thread PR ~
最后是关于SMP,我不明白为什么把nest
绑定到thread而不是cpu上,因为总还是在锁cpu,其次rt-thread的smp似乎是专门给A核设计,目前的多核MCU也有蛮多,希望可以提供一些相关支持。
Attention please!!(2022-5-12): 评论区有提供bsp的压缩包
只是一个可以玩玩的状态,目前可以确定的是存在和调度相关的bug会导致系统崩溃(目前测试在shell反复调用list_thread可能崩溃,可能和kservice有关)。
<u>另外如果线程在调度器启动前被创建,即INIT_BORAD_EXPORT方式创建则一切正常(list_thread不会崩溃),在main中创建就可能出现崩溃</u>,希望各位大佬可以给点调试思路。</u>
由于最近事情很多比较忙绿,没有时间调试和阅读代码,但会在后续一段时间(六月-七月)调试完善smp调度并在后续添加完善pico的驱动支持,希望感兴趣的同学一起交流哈。(也在看看rtthread v5.0的消息哈)
先赞再学习!
关键还是芯片硬件能实现spinlock,pico在M0核上实现真是让人惊奇了。
一般的M多核芯片并没有实现这个,且总线矩阵上也不是为SMP设计,这给数据共享和互斥带来了麻烦,也许可以考虑下把任务和数据分开,按不同的亲和属性来实现伪SMP🐵
@aozima 大佬的打赏我属实惊了hhh,谢谢!
raspberry-pico.zip
对于rtthread的理解还很有限,自己囫囵吞枣看了几天代码就来移植RP2040的SMP了。
可能代码存在很多问题,可能SMP的运行在某些情况下会出现问题。我把目前的工程上传上来,希望各位大佬可以帮忙测试指正。
使用说明:
rt_interrupt_enter/leave
来规避SMP框架的中断调度问题(不知道会不会有其他问题)又测试了一下,发现在反复调用ps(list_thread)命令可能出现死机(进入硬中断)的情况,还不清楚原因,只知道是由于访问非法地址导致的,并且只有在启动的线程数量比较多的时候才会出现。。。。
慢慢后续完善吧,简单跑跑目前发现还是可以的
学习!先赞在学习!理解了再来回帖。
很赞啊,多核MCU确实是一个方向的,越来越多的M也在考虑多核这个方向了
大佬牛逼
牛👍👍👍
欢迎pr一下
@RTT_逍遥 还有一些bug我要调试一下
牛!
😍
膜拜大佬
大佬牛
一真想学移植一个多核处理器到rt-thread上,没有合适的板子,看了下这个板子不贵,买一个玩玩
@hfmm 建议直接拿qemu-vexpress-a9学,这个是cortex-m的有一些问题目前