首页> 中国专利> 饮食计划的决策方法、装置、计算机设备及存储介质

饮食计划的决策方法、装置、计算机设备及存储介质

页面导航

摘要
著录项
说明书
相似文献

摘要

本申请涉及大数据处理领域，揭示了一种饮食计划的决策方法、装置、计算机设备及存储介质，其中方法包括：获取用户的当前生理状态数据及目标生理状态数据；将所述当前生理状态数据及目标生理状态数据作为强化学习的序贯决策模型的输入，基于所述强化学习的序贯决策模型输出若干项执行计划，以及各项所述执行计划的奖励值；根据所述奖励值选取符合预设条件的执行计划作为目标执行计划，并输出所述目标执行计划包含的每一天的执行动作及生理状态数据。本申请能够输出长远计划的饮食数据，提高饮食计划的规划效率。

著录项

公开/公告号CN113077870A

专利类型发明专利
公开/公告日2021-07-06

原文格式PDF
申请/专利权人平安科技(深圳)有限公司;
展开▼

申请/专利号CN202110476903.7
发明设计人袁东昇;阮晓雯;肖京;
展开▼

申请日2021-04-29
分类号G16H20/60(20180101);G06N3/08(20060101);
代理机构44343 深圳市明日今典知识产权代理事务所(普通合伙);
代理人王杰辉;熊成龙
地址 518000 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼
入库时间 2023-06-19 11:44:10

说明书

技术领域

本申请涉及到大数据领域，特别是涉及到一种饮食计划的决策方法、装置、计算机设备及存储介质。

背景技术

健康是促进人的全面发展的必然要求，人们对健康饮食的要求逐年增加，目前的饮食健康管理工具都只能单次识别分析食物的热量，给予用户食物热量的告知，发明人意识到，目前的饮食健康管理工具无法做到连续的饮食建议，对于饮食建议的自动化程度及效率较低。

发明内容

本申请的主要目的为提供一种饮食计划的决策方法、装置、计算机设备及存储介质，旨在解决目前的饮食建议的自动化程度及效率较低的问题。

为了实现上述发明目的，本申请提出一种饮食计划的决策方法，包括：

获取用户的当前生理状态数据及目标生理状态数据；

将所述当前生理状态数据及目标生理状态数据作为强化学习的序贯决策模型的输入，基于所述强化学习的序贯决策模型输出若干项执行计划，以及各项所述执行计划的奖励值；

根据所述奖励值选取符合预设条件的执行计划作为目标执行计划，并输出所述目标执行计划包含的每一天的执行动作及生理状态数据。

进一步地，所述基于所述强化学习的序贯决策模型输出若干项执行计划，以及各项执行计划的奖励值，包括：

将所述用户的当前生理状态数据作为前一天的生理状态数据；

从预设的数据库中获取若干种执行动作，依次选取一个所述执行动作作为前一天的执行动作；

依次计算前一天的生理状态数据执行所述前一天的执行动作，得到后一天的生理状态数据；直至执行至执行周期的最后一天的执行动作，得到结果生理状态数据；

将关联的每一天的执行动作进行组合，生成若干项执行计划及每一项所述执行计划对应的结果生理状态数据；

将所述结果生理状态数据与目标生理状态数据相比较，确定不同项执行计划的奖励值。

进一步地，所述从预设的数据库中获取若干种执行动作，依次选取一个所述执行动作作为前一天的执行动作之前，还包括：

获取预输出的执行计划的执行周期，根据所述执行周期确定执行难度；

根据所述执行难度从预设的数据库中获取满足所述执行难度的若干种执行动作。

进一步地，所述根据所述奖励值选取符合预设条件的执行计划作为目标执行计划之后，还包括：

为用户匹配具有相同目标执行计划的目标用户；

建立所述用户与所述目标用户的关联关系，基于所述关联关系向所述用户推送所述目标用户的目标执行计划的进展信息及参考数据信息。

进一步地，所述执行动作包括饮食信息，所述饮食信息包括食物种类；所述输出所述目标执行计划包含的每一天的执行动作，包括：

获取用户的地域特征及饮食习惯；

根据所述地域特征及饮食习惯匹配目标食物种类；

将所述执行动作的饮食信息中的食物种类替换为所述目标食物种类。

进一步地，所述执行动作包括饮食信息，所述执行动作包括饮食信息，所述饮食信息包括食物种类；所述输出所述目标执行计划包含的每一天的执行动作，包括：

获取用户选择的待替换食物种类；

根据所述待替换食物种类的热量信息匹配具有等同热量信息的目标食物种类；

将所述执行动作的饮食信息中的所述待替换食物种类替换为所述目标食物种类。

进一步地，根据所述奖励值选取符合预设条件的执行计划作为目标执行计划，并输出所述目标执行计划包含的每一天的执行动作及生理状态数据之后，还包括：

将所述目标执行计划发送至预设的监督人。

本申请还提供一种饮食计划的决策装置，包括：

数据获取模块：用于获取用户的当前生理状态数据及目标生理状态数据；

计划生成模块：用于将所述当前生理状态数据及目标生理状态数据作为强化学习的序贯决策模型的输入，基于所述强化学习的序贯决策模型输出若干项执行计划，以及各项所述执行计划的奖励值；

计划输出模块：用于根据所述奖励值选取符合预设条件的执行计划作为目标执行计划，并输出所述目标执行计划包含的每一天的执行动作及生理状态数据。

本申请还提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述饮食计划的决策方法的步骤。

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述饮食计划的决策方法的步骤。

本申请例提供了一种长远计划的饮食计划的决策方法，在饮食管理场景下，获取用户的当前生理状态数据及目标生理状态数据，将所述当前生理状态数据及目标生理状态数据作为强化学习的序贯决策模型的输入，强化学习的序贯决策模型能够计算出不同执行动作下用户前一天的生理状态数据及下一天的生理状态数据，并以此计算执行完预设周期内每一天的执行动作后生理状态数据，然后将预设周期内的每一天不同的执行动作进行组合，作为一项执行计划，将一项执行计划最后一天的生理状态数据作为该项执行计划的结果生理状态数据，再将结果生理状态数据与目标生理状态数据相比较得到各项执行计划的奖励值，根据所述奖励值选取符合条件的目标执行计划，并输出所述目标执行计划包含的执行动作及生理状态数据，用户根据所述执行动作可以完成每天的饮食搭配，从而输出长远计划的饮食数据，提高饮食计划的规划效率，帮助用户实现在执行周期内达到目标身体状态数据的目的。

附图说明

图1为本申请饮食计划的决策方法的一实施例流程示意图；

图2为本申请饮食计划的决策方法的另一实施例流程示意图；

图3为本申请饮食计划的决策装置的一实施例结构示意图；

图4为本申请计算机设备的一实施例结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，本申请实施例提供一种饮食计划的决策方法，包括步骤S10-S30，对于所述饮食计划的决策方法的各个步骤的详细阐述如下。

S10、获取用户的当前生理状态数据及目标生理状态数据。

本实施例中应用于饮食管理的场景，在饮食管理场景下，用户需要从自己当前的身体状态发展至目标的身体状态，所述身体状态以一系列可量化的数据表示，包括身高、体重、性别、年龄、肺活量、弹跳、三围、体脂率等数据，将身体状态通过多项不同的生理状态数据定义；在一种实施方式中，用户可以输入自己当前的身体状态信息，或者，通过特定的测量工具获取用户当前的身体状态信息，将当前的身体状态信息定义为当前生理状态数据，从而获取用户的当前生理状态数据，例如通过获取测量工具测量到的用户的身高、体重、肺活量、弹跳、三围、体脂率等数据，然后生成用户的当前生理状态数据。另外，还需要确定用户想要达到的身体状态，即获取用户的目标生理状态数据，在一种实施方式中，用户的目标生理状态数据可以由用户自行输入，用户针对每一项生理状态数据输入自己的目标生理状态数据，从而获取用户的目标生理状态数据；也可以是根据用户的某几项当前生理状态数据，然后基于该某几项当前生理状态数据获取满足生理健康标准的生理状态数据，作为目标生理状态数据，从而获取用户的目标生理状态数据。

S20、将所述当前生理状态数据及目标生理状态数据作为强化学习的序贯决策模型的输入，基于所述强化学习的序贯决策模型输出若干项执行计划，以及各项所述执行计划的奖励值。

本实施例中，在获取了用户的当前生理状态数据及目标生理状态数据后，需要根据所述当前生理状态数据及目标生理状态数据为用户生成达到所述目标生理状态数据的执行计划，具体的，本实施例构建一个强化学习的序贯决策模型，所述强化学习的序贯决策模型能够模拟人体在前一天的生理状态数据下执行不同的执行动作后，得到后一天的生理状态数据。

所述强化学习的序贯决策模型通过以下步骤构建，包括：

根据模型配置信息获取生理指标状态量，并获取不同用户的生理指标状态量作为第一训练数据；

根据模型配置信息获取执行动作状态量，并获取不同执行动作状态量的组合作为第二训练数据；

将所述第一训练数据与所述第二训练数据代入人体代谢公式进行模型训练，计算出不同执行动作下的人体代谢结果，根据所述人体代谢结果返回奖励值；

基于每一次的奖励值进行迭代优化，使得模型朝向最大奖励值的方向优化学习，生成强化学习的序贯决策模型。

根据模型配置信息获取生理指标状态量和执行动作状态量，所述模型配置信息中包含不同生理指标的定义以及量化标准，同时还包含不同执行动作的定义及量化标准，然后根据所述配置信息定义生理指标状态量及执行动作状态量，对每一项生理指标状态进行数值量化，对每一项执行动作进行数值量化，在定义完以上要素后，获取不同用户的生理指标状态量作为第一训练数据，获取不同执行动作状态量的组合作为第二训练数据，将所述第一训练数据与所述第二训练数据代入人体代谢公式进行模型训练，模拟多次人体与环境交互的过程，每次交互人体通过模型的计算出不同执行动作下的人体代谢结果，根据所述人体代谢结果返回奖励值，选择最佳的奖励值并执行，基于每一次的奖励值进行迭代优化，使得模型朝向最大奖励值的方向优化学习，生成强化学习的序贯决策模型。

具体的，所述强化学习的序贯决策模型先获取用户的当前生理状态数据，再从预设的数据库中获取若干种每一天的执行动作，所述若干种每一天的执行动作均不相同，然后计算用户的当前生理状态数据在执行不同的执行计划后，得到的下一天的生理状态数据，然后记录当前生理状态数据与下一天的生理状态数据，再以“下一天的生理状态数据”作为新的“当前生理状态数据”，然后再获取若干种每一天的执行动作，计算得到下一天的生理状态数据，以此类推，当从所述当前状态数据执行了预设周期的执行动作后，所述预设周期为预设定的从当前状态数据变化到目标状态数据的计划天数，可以得到不同的结果生理状态数据，然后将预设周期内的每一天不同的执行动作进行组合，便可作为一项执行计划，然后再根据每一项执行计划的结果生理状态数据与目标生理状态数据的差值，确定该项执行计划的奖励值。当结果生理状态数据与目标生理状态数据的差值越小时，奖励值越大；当差值越大时，奖励值越小。

例如，用户第一天的生理状态数据为A，获取的执行动作为D1，执行D1后得到的第二天的生理状态数据为A1，再获取执行动作D2，执行D2后得到的第二天的生理状态数据为A2，依次执行完预设周期的所有执行动作，直至执行预设周期的最后一天的执行动作Dx，得到结果生理状态数据Ax，由D1，D2-Dx组成一项执行计划，再将结果生理状态数据Ax与目标生理状态数据相比较，确定该项执行计划的奖励值。当差值越小时，奖励值越大；当差值越大时，奖励值越小。

S30、根据所述奖励值选取符合预设条件的执行计划作为目标执行计划，并输出所述目标执行计划包含的每一天的执行动作及生理状态数据。

本实施例中，在得到若干项执行计划后，根据所述奖励值选取符合预设条件的执行计划，奖励值的大小确定了不同执行计划的结果生理状态数据距离目标生理状态数据的差值，然后选取奖励值符合预设条件的执行计划，作为目标执行计划。在一种实施方式中，选取奖励值最大的执行计划作为目标执行计划，然后输出所述目标执行计划包含的执行动作，每一项执行计划包含了执行周期内的每一天的执行动作，所述执行动作包括饮食信息、饮食执行信息，并且还输出每一天用户的生理状态数据，输出所述目标执行计划包含的每一天的执行动作及生理状态数据后，用户可以根据所述目标执行计划，确定自己每一天的执行动作，即确定每一天的饮食信息、饮食执行信息，所述饮食信息包括食材、分量及做法，所述饮食执行信息包括饮食时间点及饮食时长，用户根据所述执行动作可以完成每天的饮食搭配，从而帮助用户实现在执行周期内达到目标身体状态数据的目的。

本实施例提供了一种长远计划的饮食计划的决策方法，在饮食管理场景下，获取用户的当前生理状态数据及目标生理状态数据，将所述当前生理状态数据及目标生理状态数据作为强化学习的序贯决策模型的输入，强化学习的序贯决策模型能够计算出不同执行动作下用户前一天的生理状态数据及下一天的生理状态数据，并以此计算执行完预设周期内每一天的执行动作后生理状态数据，然后将预设周期内的每一天不同的执行动作进行组合，作为一项执行计划，将一项执行计划最后一天的生理状态数据作为该项执行计划的结果生理状态数据，再将结果生理状态数据与目标生理状态数据相比较得到各项执行计划的奖励值，根据所述奖励值选取符合条件的目标执行计划，并输出所述目标执行计划包含的执行动作及生理状态数据，用户根据所述执行动作可以完成每天的饮食搭配，从而输出长远计划的饮食数据，提高饮食计划的规划效率，帮助用户实现在执行周期内达到目标身体状态数据的目的。

在一个实施例中，如图2所示，所述基于所述强化学习的序贯决策模型输出若干项执行计划，以及各项执行计划的奖励值，包括：

S21：将所述用户的当前生理状态数据作为前一天的生理状态数据；

S22：从预设的数据库中获取若干种执行动作，依次选取一个所述执行动作作为前一天的执行动作；

S23：依次计算前一天的生理状态数据执行所述前一天的执行动作，得到后一天的生理状态数据；直至执行至执行周期的最后一天的执行动作，得到结果生理状态数据；

S24：将关联的每一天的执行动作进行组合，生成若干项执行计划及每一项所述执行计划对应的结果生理状态数据；

S25：将所述结果生理状态数据与目标生理状态数据相比较，确定不同项执行计划的奖励值。

本实施例中，所述强化学习的序贯决策模型先获取用户的当前生理状态数据，将所述用户的当前生理状态数据作为前一天的生理状态数据，所述前一天为后一天的前面一天，具体的，将所述用户的当前生理状态数据作为第一天的生理状态数据，从预设的数据库中获取若干种执行动作，所述若干种执行动作均不相同，依次选取一个执行动作作为前一天的执行动作，依次计算前一天的生理状态数据执行所述前一天的执行动作，得到后一天的生理状态数据；直至执行至执行周期的最后一天的执行动作，得到结果生理状态数据。由于执行计划是从第一天开始的，因此首先选取一个执行动作作为第一天的执行动作，然后计算第一天的生理状态数据执行第一天的执行动作，得到第二天的生理状态数据，再选取一个执行动作作为第二天的执行动作，计算第二天的生理状态数据执行第二天的执行动作，得到第三天的生理状态数据；以此类推，直至执行至执行周期的最后一天的执行动作，得到结果生理状态数据；然后将相互关联的每一天的执行动作进行组合，生成若干项执行计划及对应的结果生理状态数据，相互关联的每一天的执行动作指的是不同执行动作的组合，例如执行动作包括D1a，D1b，D1c，在第一天执行了D1a后，第二天执行了D1c，则D1a、D1c为相互关联的执行动作；若在第一天执行了D1b，第二天执行了D1c，则D1b、D1c为相互关联的执行动作。

其中，计算生理状态数据执行了执行动作后的变化的一种实施方式如下：

人体每日总能量消耗量＝0.95*每日基础代谢消耗量*PAL；

其中：每日基础代谢的能量消耗＝BMR(kcal/m^2/h)*24H*体表面积；

PAL(体例活动水平)为24h总能量消耗除以24h基础代谢所消耗的能量。基础代谢率(BMR)指单位时间内，人体每平方米体表面积所消耗的基础代谢能量。单位是kcal/m^2/h。进一步的，男性的基础代谢率Men BMR＝66.4730+(13.7516x weight in kg)+(5.0033xheight in cm)–(6.7550x age in years)；女性的基础代谢率Women BMR＝655.0955+(9.5634x weight in kg)+(1.8496xheight in cm)–(4.6756x age in years)；体表面积(m^2)＝0.00659*身高(cm)+0.0126*体重(kg)-0.1603；最终：(人体摄入能量-人体消耗能量)/换算比例＝人体生理状态数据(体重)的变化，科学测算换算值为3889卡路里/千克。

在得到各项执行计划及其结果生理数据后，将所述结果生理状态数据与目标生理状态数据相比较，确定不同项执行计划的奖励值，当差值越小时，表示结果生理数据越接近目标生理状态数据，此执行计划的奖励值越大；当差值越大时，表示结果生理数据与目标生理状态数据差距越大，此执行计划的奖励值越小，通过将不同执行动作进行组合，可以通过不断的组合得到预设周期内奖励值最大的执行计划，使得执行计划的结果生理状态数据越趋向目标生理状态数据。

在一个实施例中，所述从预设的数据库中获取若干种执行动作，依次选取一个所述执行动作作为前一天的执行动作之前，还包括：

获取预输出的执行计划的执行周期，根据所述执行周期确定执行难度；

根据所述执行难度从预设的数据库中获取满足所述执行难度的若干种执行动作。

本实施例中，在特定的应用场景下，为了快速地实现身体状态至目标身体状态数据，需要在较短的执行周期使得实现身体状态至目标身体状态数据，此时需要提高执行动作的执行难度，即执行计划中每一天的生理状态数据的变化值离平均值越大，则当天的执行动作的执行难度越高，则所述执行计划的执行难度越大。具体的，获取预输出的执行计划的执行周期，根据所述执行周期确定执行动作的执行难度，然后根据所述执行难度从预设的数据库中获取满足所述执行难度的若干种执行动作，使得选取到的执行动作能够满足所述执行难度，避免执行计划内的各执行动作前后的执行难度差距过大，从而提高执行计划的合理性。进一步的，可以不断调节所述执行周期，但设置有执行周期的安全值，然后基于所述强化学习的序贯决策模型计算不同执行周期下的若干种执行计划的奖励值，确定不同执行周期的执行计划，从而为用户提供实现目标身体状态数据的时间参考，例如在特定体重级的场景下，用户需要在特定时间内到达某个体重级别，因此可以获取所述执行计划的执行周期，然后确定执行动作的执行难度，从而在特定时间内使用户的身体状态数据到达某个体重级别。

在一个实施例中，所述步骤S30中根据所述奖励值选取符合预设条件的执行计划作为目标执行计划之后，还包括：

为用户匹配具有相同目标执行计划的目标用户；

建立所述用户与所述目标用户的关联关系，基于所述关联关系向所述用户推送所述目标用户的目标执行计划的进展信息及参考数据信息。

本实施例中，为用户根据所述奖励值选取符合预设条件的目标执行计划后，为了让具有相同目标执行计划的用户互相借鉴或互相激励，为所述用户匹配具有相同目标执行计划的目标用户，然后建立所述用户与所述目标用户的关联关系并推送联系信息，建立所述用户与目标用户的关联，可以使得用户能够了解目标用户的目标计划执行进程，所述目标用户包括已经在进行目标执行计划的用户，基于所述关联关系向用户推送目标用户的目标执行计划的进展信息及参考数据信息，用户可以观察到目标用户进行相同的目标执行计划后，目标用户每一天的身体状态数据的变化，从而根据所述目标用户的参考数据信息提前了解自己的身体状态数据的变化，使得用户更加清晰地了解目标执行计划的实施效果。

在一个实施例中，所述执行动作包括饮食信息，所述饮食信息包括食物种类；所述输出所述目标执行计划包含的每一天的执行动作，包括：

获取用户的地域特征及饮食习惯；

根据所述地域特征及饮食习惯匹配目标食物种类；

将所述执行动作的饮食信息中的食物种类替换为所述目标食物种类。

本实施例中，所述执行动作包括饮食信息，且所述饮食信息包括食物种类，即执行计划中包含了每天的饮食计划信息，考虑到不同地区的用户的饮食习惯不同，在输出所述目标执行计划时，获取用户的地域特征及饮食习惯，所述用户的地域特征及饮食习惯可以通过大数据进行匹配，基于大数据确定不同地区的用户的饮食习惯，然后根据所述地域特征及饮食习惯匹配目标食物种类，将所述目标执行计划中的执行动作的食物种类替换为所述目标食物种类，可以为不同用户匹配不同的食物种类，满足不同地域特征与饮食习惯的用户的需求，提高饮食数据匹配的合理性。例如，执行动作中的饮食信息的午餐卡路里含量是50K时，根据A地区的用户的饮食习惯匹配的目标食物种类为食物S1，而B地区的用户匹配的目标食物种类为食物S2。

在一个实施例中，所述执行动作包括饮食信息，所述饮食信息包括食物种类；所述输出所述目标执行计划包含的每一天的执行动作，包括：

获取用户选择的待替换食物种类；

根据所述待替换食物种类的热量信息匹配具有等同热量信息的目标食物种类；

将所述执行动作的饮食信息中的所述待替换食物种类替换为所述目标食物种类。

本实施例中，不同地区或不同饮食习惯的用户对于饮食的喜好程度不同，在输出所述目标执行计划，及输出所述目标执行计划包含的每一天的执行动作时，若用户想要替换其中的某类食物，获取用户选择的待替换食物种类，随即获取目标执行计划包含的每一天的执行动作的该类待替换食物种类，然后根据所述待替换食物种类的热量信息匹配具有等同热量信息的目标食物种类，将所述执行动作的饮食信息中的待替换食物种类替换为所述目标食物种类，用户的饮食信息中的食物种类可以根据自己的喜好进行替换，以使所述目标执行计划中的饮食信息更加个性化的定制，满足不同用户的需求。可选的，当选取了某一类待需要替换的食物种类后，可以选择部分替换或全部替换，部分替换即是选取执行计划中的某一时间段中包含所述待替换食物种类，替换为目标种类食物，而全部替换是替换执行计划中，所有待替换食物种类为目标种类食物，以满足不同用户的饮食需求。

在一个实施例中，所述步骤S30根据所述奖励值选取符合预设条件的执行计划作为目标执行计划，并输出所述目标执行计划包含的每一天的执行动作及生理状态数据之后，还包括：

将所述目标执行计划发送至预设的监督人。

本实施例中，在得到用户的目标执行计划后，为了让用户更好地根据所述目标执行计划进行每天的饮食摄入，将所述目标执行计划发送至预设的监督人，通知预设人的监督人根据所述目标执行计划为用户提供饮食，从而帮助用户在预设周期内达到目标生理状态数据。在一种应用场景如坐月子场景中，根据每个用户不同的当前生理状态与目标生理状态数据确定了目标执行计划后，将所述目标执行计划发送至预设的监督人，使得预设的监督人可以根据所述目标执行计划为用户每一天的饮食做准备，保证坐月子期间的饮食规律及用户的身体状态数据。

参照图3，本申请还提供一种饮食计划的决策装置，包括：

数据获取模块10：用于获取用户的当前生理状态数据及目标生理状态数据；

计划生成模块20：用于将所述当前生理状态数据及目标生理状态数据作为强化学习的序贯决策模型的输入，基于所述强化学习的序贯决策模型输出若干项执行计划，以及各项所述执行计划的奖励值；

计划输出模块30：用于根据所述奖励值选取符合预设条件的执行计划作为目标执行计划，并输出所述目标执行计划包含的每一天的执行动作及生理状态数据。

如上所述，可以理解地，本申请中提出的所述饮食计划的决策装置的各组成部分可以实现如上所述饮食计划的决策方法任一项的功能。

在一个实施例中，所述计划生成模块20还包括执行：

将所述用户的当前生理状态数据作为前一天的生理状态数据；

从预设的数据库中获取若干种执行动作，依次选取一个所述执行动作作为前一天的执行动作；

将关联的每一天的执行动作进行组合，生成若干项执行计划及每一项所述执行计划对应的结果生理状态数据；

将所述结果生理状态数据与目标生理状态数据相比较，确定不同项执行计划的奖励值。

在一个实施例中，所述计划生成模块20还包括执行：

获取预输出的执行计划的执行周期，根据所述执行周期确定执行难度；

根据所述执行难度从预设的数据库中获取满足所述执行难度的若干种执行动作。

在一个实施例中，所述装置还包括匹配模块，用于为用户匹配具有相同目标执行计划的目标用户；建立所述用户与所述目标用户的关联关系，基于所述关联关系向所述用户推送所述目标用户的目标执行计划的进展信息及参考数据信息。

在一个实施例中，所述计划输出模块30还包括执行：

获取用户的地域特征及饮食习惯；

根据所述地域特征及饮食习惯匹配目标食物种类；

将所述执行动作的饮食信息中的食物种类替换为所述目标食物种类。

在一个实施例中，所述计划输出模块30还包括执行：

获取用户选择的待替换食物种类；

根据所述待替换食物种类的热量信息匹配具有等同热量信息的目标食物种类；

将所述执行动作的饮食信息中的所述待替换食物种类替换为所述目标食物种类。

在一个实施例中，所述装置还包括监督模块，用于将所述目标执行计划发送至预设的监督人。

参照图4，本申请实施例中还提供一种计算机设备，该计算机设备可以是移动终端，其内部结构可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和显示装置及输入装置。其中，该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机设备的输入装置用于接收用户的输入。该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括存储介质。该存储介质存储有操作系统、计算机程序和数据库。该计算机设备的数据库用于存放数据。该计算机程序被处理器执行时以实现一种饮食计划的决策方法。

上述处理器执行上述的饮食计划的决策方法，包括：获取用户的当前生理状态数据及目标生理状态数据；将所述当前生理状态数据及目标生理状态数据作为强化学习的序贯决策模型的输入，基于所述强化学习的序贯决策模型输出若干项执行计划，以及各项执行计划的奖励值；根据所述奖励值选取符合预设条件的目标执行计划，并输出所述目标执行计划包含的每一天的执行动作及生理状态数据。

所述计算机设备提供了一种长远计划的饮食计划的决策方法，在饮食管理场景下，获取用户的当前生理状态数据及目标生理状态数据，将所述当前生理状态数据及目标生理状态数据作为强化学习的序贯决策模型的输入，强化学习的序贯决策模型能够计算出不同执行动作下用户前一天的生理状态数据及下一天的生理状态数据，并以此计算执行完预设周期内每一天的执行动作后生理状态数据，然后将预设周期内的每一天不同的执行动作进行组合，作为一项执行计划，将一项执行计划最后一天的生理状态数据作为该项执行计划的结果生理状态数据，再将结果生理状态数据与目标生理状态数据相比较得到各项执行计划的奖励值，根据所述奖励值选取符合条件的目标执行计划，并输出所述目标执行计划包含的执行动作及生理状态数据，用户根据所述执行动作可以完成每天的饮食搭配，从而输出长远计划的饮食数据，提高饮食计划的规划效率，帮助用户实现在执行周期内达到目标身体状态数据的目的。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被所述处理器执行时实现一种饮食计划的决策方法，包括步骤：获取用户的当前生理状态数据及目标生理状态数据；将所述当前生理状态数据及目标生理状态数据作为强化学习的序贯决策模型的输入，基于所述强化学习的序贯决策模型输出若干项执行计划，以及各项执行计划的奖励值；根据所述奖励值选取符合预设条件的目标执行计划，并输出所述目标执行计划包含的每一天的执行动作及生理状态数据。

所述计算机可读存储介质提供了一种长远计划的饮食计划的决策方法，在饮食管理场景下，获取用户的当前生理状态数据及目标生理状态数据，将所述当前生理状态数据及目标生理状态数据作为强化学习的序贯决策模型的输入，强化学习的序贯决策模型能够计算出不同执行动作下用户前一天的生理状态数据及下一天的生理状态数据，并以此计算执行完预设周期内每一天的执行动作后生理状态数据，然后将预设周期内的每一天不同的执行动作进行组合，作为一项执行计划，将一项执行计划最后一天的生理状态数据作为该项执行计划的结果生理状态数据，再将结果生理状态数据与目标生理状态数据相比较得到各项执行计划的奖励值，根据所述奖励值选取符合条件的目标执行计划，并输出所述目标执行计划包含的执行动作及生理状态数据，用户根据所述执行动作可以完成每天的饮食搭配，从而输出长远计划的饮食数据，提高饮食计划的规划效率，帮助用户实现在执行周期内达到目标身体状态数据的目的。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。

本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。

非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围。

凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 饮食计划的决策方法、装置、计算机设备及存储介质 [P] . 中国专利： CN113077870A . 2021-07-06
2. 交通灯决策方法、装置、计算机设备和存储介质 [P] . 中国专利： CN110021176B . 2021.06.15
3. ALERT INFORMATION DECISION METHOD AND APPARATUS, COMPUTER DEVICE AND STORAGE MEDIUM [P] . WO2021042843A1 . 2021-03-11

机译：警报信息决策方法和装置，计算机设备和存储介质
4. DYNAMIC DECISION SUPPORT DEVICE, DYNAMIC DECISION METHOD, AND COMPUTER-READABLE STORAGE MEDIUM [P] . 日本专利： JP2002099871A . 2002-04-05

机译：动态决策支持设备，动态决策方法和计算机可读存储介质
5. DECISION DEVICE, DECISION METHOD, AND NON-TRANSITORY COMPUTER READABLE STORAGE MEDIUM [P] . 美国专利： US2018174184A1 . 2018-06-21

机译：决策装置，决策方法和非暂态计算机可读存储介质