首页> 中国专利> 机器学习流程图的生成方法及装置、设备

机器学习流程图的生成方法及装置、设备

摘要

本申请实施例公开了机器学习流程图的生成方法及装置、设备;其中,所述方法包括:确定基于第一配置模块引导配置的第一参数,所述第一参数用于指定目标任务;其中,所述第一配置模块包括至少一个候选任务;确定所述目标任务关联的第二配置模块;确定基于所述第二配置模块引导配置的第二参数;根据所述第一参数和所述第二参数,生成机器学习流程图,所述机器学习流程图生成的机器学习模型用于执行所述目标任务。

著录项

  • 公开/公告号CN112884166A

    专利类型发明专利

  • 公开/公告日2021-06-01

    原文格式PDF

  • 申请/专利权人 联想(北京)有限公司;

    申请/专利号CN202110351770.0

  • 发明设计人 李雪玉;李耀满;方菲;

    申请日2021-03-31

  • 分类号G06N20/00(20190101);G06F9/445(20180101);

  • 代理机构11270 北京派特恩知识产权代理有限公司;

  • 代理人刘欢欢;张颖玲

  • 地址 100085 北京市海淀区上地西路6号2幢2层201-H2-6

  • 入库时间 2023-06-19 11:11:32

说明书

技术领域

本申请实施例涉及人工智能技术,涉及但不限于机器学习流程图的生成方法及装置、设备。

背景技术

近几年来,随着人工智能技术的高速发展,大量企业希望将人工智能技术应用于产业,为企业分析长期积累的生产数据,推进企业的信息化、智能化转型,提高生产效率及收益。然而,多数企业并不配备专业的人工智能技术团队,且组建这样的团队耗时长、成本高。

因此,目前市场亟需一种具有低门槛、高定制的建模能力的机器学习平台,让人工智能技术专家(资深用户)或是不具有人工智能背景知识的行业专家(初阶用户),都能高效地构建机器学习流程图,降低机器学习的使用门槛和成本,使人工智能技术真正惠及各个行业。

发明内容

有鉴于此,本申请实施例提供的机器学习流程图的生成方法及装置、设备,通过配置模块,引导用户进行简单地参数配置,自动生成机器学习流程图,从而降低机器学习的使用门槛和成本。本申请实施例提供的机器学习流程图的生成方法及装置、设备是这样实现的:

本申请实施例提供的机器学习流程图的生成方法,包括:确定基于第一配置模块引导配置的第一参数,所述第一参数用于指定目标任务;其中,所述第一配置模块包括至少一个候选任务;确定所述目标任务关联的第二配置模块;确定基于所述第二配置模块引导配置的第二参数;根据所述第一参数和所述第二参数,生成机器学习流程图,所述机器学习流程图生成的机器学习模型用于执行所述目标任务。

本申请实施例提供的机器学习流程图的生成装置,包括:确定单元,用于确定基于第一配置模块引导配置的第一参数,所述第一参数用于指定目标任务;其中,所述第一配置模块包括至少一个候选任务;所述确定单元,还用于确定所述目标任务关联的第二配置模块;所述确定单元,还用于确定基于所述第二配置模块引导配置的第二参数;生成单元,用于根据所述第一参数和所述第二参数,生成机器学习流程图,所述机器学习流程图生成的机器学习模型用于执行所述目标任务。

本申请实施例提供的电子设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现本申请实施例所述的方法。

在本申请实施例中,基于第一配置模块引导用户配置第一参数,所述第一参数用于指定目标任务;其中,所述第一配置模块包括至少一个候选任务;确定所述目标任务关联的第二配置模块;基于所述第二配置模块引导用户配置第二参数;根据所述第一参数和所述第二参数,生成机器学习流程图,所述机器学习流程图生成的机器学习模型用于执行所述目标任务。如此,一方面,逐步引导用户对生成机器学习流程图的参数进行配置,能够大大降低机器学习流程图的构建和使用的门槛,有效拓宽了使用人群;另一方面,因为用户通过简单的配置即可得到机器学习流程图,所以用户无需一个一个节点地拖拽和连接,有效提高了机器学习模型构建的效率。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,这些附图示出了符合本申请的实施例,并与说明书一起用于说明本申请的技术方案。

图1为本申请实施例提供的机器学习流程图的生成方法的实现流程示意图;

图2为本申请实施例提供的第一配置界面的示意图;

图3为本申请实施例提供的配置窗口示意图;

图4为本申请实施例提供的第二配置界面的示意图;

图5为本申请实施例提供的机器学习流程图的编辑界面;

图6为本申请实施例提供的机器学习流程图的生成方法的另一实现流程示意图;

图7为本申请实施例提供的机器学习流程图的生成方法的又一实现流程示意图;

图8为本申请实施例提供的机器学习流程图的生成方法的再一实现流程示意图;

图9为本申请实施例提供的另一第二配置界面的示意图;

图10为本申请实施例提供的根据用户配置自动生成的机器学习流程图;

图11为本申请实施例机器学习流程图的生成装置的结构示意图;

图12为本申请实施例提供的电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请的具体技术方案做进一步详细描述。以下实施例用于说明本申请,但不用来限制本申请的范围。

除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。

在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。

需要指出,本申请实施例所涉及的术语“第一\第二\第三”用以区别类似或不同的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

本申请实施例提供一种机器学习流程图的生成方法,该方法应用于电子设备,该电子设备在实施的过程中可以为各种类型的具有信息处理能力的设备,例如所述电子设备可以包括个人计算机、笔记本电脑、服务器、集群服务器、手机或平板电脑等。该方法所实现的功能可以通过电子设备中的处理器调用程序代码来实现,当然程序代码可以保存在计算机存储介质中,可见,该电子设备至少包括处理器和存储介质。

图1为本申请实施例提供的机器学习流程图的生成方法的实现流程示意图,如图1所示,该方法可以包括以下步骤101至步骤104:

步骤101,确定基于第一配置模块引导配置的第一参数,所述第一参数用于指定目标任务;其中,所述第一配置模块包括至少一个候选任务。

所谓机器学习流程图是指包含了生成机器学习模型的相关节点的流程图,即机器学习模型的代码的抽象结构,在构建好机器学习流程图后,电子设备运行机器学习流程图对应的代码,得到机器学习模型。

目标任务可以是用户想要通过机器学习模型完成的任务,候选任务可以是机器学习模型能完成的任务,例如,分类、聚类、回归或其他行业相关的任务。

在一些实施例中,第一配置模块可以包括第一配置界面,在用户想要生成机器学习流程图时,电子设备显示包括至少一个候选任务的第一配置界面,图2为本申请实施例提供的第一配置界面示意图,如图2所示,第一配置界面21包括候选任务“聚类”、“回归”和/或“分类”。每个候选任务对应设置有选择按钮211,在电子设备检测到用户对选择按钮211的点击后,确定第一参数,即接受点击操作的选择按钮对应的候选任务。

在一些实施例中,第一配置界面21还包括每一候选任务对应的信息,例如,通过用户点击图2中“了解更多”的按钮213,弹出来与被点击的“了解更多”的按钮213对应的候选任务的注释说明。所述注释说明至少包括:所述候选任务的适用场景、场景样例、所述场景样例的相关参数和对应的机器学习流程图的示例。用户可以通过该信息确定对哪个选择按钮211进行点击。

在一些实施例中,第一配置界面21还包括每一候选任务对应的图标212。用户通过图标212就可以快速了解候选任务的使用场景。

在一些实施例中,第一配置界面21还包括每一候选任务的简单介绍。例如,聚类的简单介绍为包括各种聚类算法,不同的聚类算法,适用不同密度和分布的数据;回归的简单介绍为包括主流的回归算法,可以从中选择最适合数据的算法;分类的简单介绍为包括主流的分类流程,以及,最好的一个将在结果里被展示。

当然,第一配置模块可以是各种类型的模块,对于第一配置模块与用户交互的方式不做限定。在一些实施例中,第一配置模块可以包括配置窗口,用户可以通过该配置窗口输入待完成的目标任务。例如,图3为本申请实施例提供的配置窗口的示意图,如图3所示,配置窗口31包括输入框311,用户在该输入窗311输入“聚类”二字,此时电子设备确定目标任务为“聚类”。

步骤102,确定所述目标任务关联的第二配置模块。

电子设备在检测到用户对选择按钮的点击,确定目标任务后,跳转至与目标任务关联的第二配置模块。例如,确定目标任务为“聚类”后,跳转至与“聚类”关联的第二配置模块,第二配置模块用于引导用户对生成“聚类”的机器学习流程图的第二参数进行配置。同样地,第二配置模块可以是各种类型的模块,对于第二配置模块与用户的交互方式也不做限定。在一些实施例中,第二配置模块可以包括第二配置界面,第二配置界面用于引导用户对生成机器学习流程图的第二参数进行配置。

步骤103,确定基于所述第二配置模块引导配置的第二参数。

例如,图4为本申请实施例提供的第二配置界面的示意图,如图4所示,第二配置界面41包括数据上传子模块411、数据分析子模块412和参数配置子模块413。其中,数据分析模块412用于分析导入的样本数据集中被选中的目标属性的特征值的分布情况,以使用户根据该目标属性的特征值的分布情况配置第一信息和第二信息;其中,所述第一信息用于指示指定属性的特征值的处理方式,所述第二信息用于指示预测目标。在本申请实施例中,可以执行如下实施例的步骤603至步骤605来实现步骤103,为避免重复,在此不做赘述。

步骤104,根据所述第一参数和所述第二参数,生成机器学习流程图,所述机器学习流程图生成的机器学习模型用于执行所述目标任务。

用户完成配置后,便可获取自动生成机器学习流程图。机器学习流程图的生成机制由大量机器学习解决方案的建模最佳实践总结而成。本申请实施例在此不做限制。

在一些实施例中,机器学习流程图包括节点以及节点之间的有向连线,其中,节点代表机器学习模型的代码模块,是可完成独立任务(例如数据导入,数据预处理,特征工程以及预测等)的可执行单位,节点间的有向连线代表根据机器学习流程图生成的机器学习模型在执行任务时的数据的流向。

可以理解地,在本申请实施例中,通过逐步引导用户对生成机器学习流程图的参数进行配置,能够大大降低机器学习模型的构建和使用的门槛,有效拓宽使用人群;并且,因为用户通过简单的配置即可得到机器学习流程图,所以用户无需一个一个节点地拖拽和连接,从而能够有效提高机器学习流程图构建的效率。

对于步骤104,电子设备在实现时可以生成非编辑模式的机器学习流程图,还可以生成编辑模式的机器学习流程图。对于是否生成编辑模式的机器学习流程图,用户可以预先配置,例如基于第二配置模块配置是否生成编辑模式的参数值。当然,在另一些实施例中,第二配置模块还可以不提供是否生成编辑模式的参数值的配置功能,即电子设备默认生成非编辑模式或者编辑模式的机器学习流程图。在默认生成非编辑模式的机器学习流程图的情况下,在一些实施例中,在步骤104之后,所述方法还包括:接收可编辑指令;其中,所述可编辑指令用于指示编辑所述机器学习流程图;响应于所述可编辑指令,生成可编辑的所述机器学习流程图。

如此,在可编辑模式下,用户可以依据自身需求对机器学习流程图进行编辑。例如,修改机器学习流程图的节点参数、增删节点或修改节点之间的连接关系。对于用户触发进入可编辑模式的方式不做限定。例如,用户可以单击或双击机器学习流程图所在界面的任意空白处,此时电子设备确定接收到可编辑指令;又如,用户可以输入特定手势或者点击特定按键,从而触发电子设备生成可编辑的机器学习流程图。

图5为本申请实施例提供的机器学习流程图的编辑界面,如图5所示,当选中机器学习流程图中的节点时,可编辑流程图的界面上会显示可以该节点可以被编辑的参数,用于对被选中的节点的节点参数进行编辑。例如,当选中“主成分分析”这个节点时,右侧栏位会显示为输出模式、处理类型、保留的成分个数、奇异值分解、允许偏差、迭代幂、随机状态、数据项等可以被编辑的参数。如此,当生成的机器学习流程图不符合用户要求时,用户可以选择机器学习流程图进行二次编辑,以灵活实现自定义需求。

图6为本申请实施例提供的机器学习流程图的生成方法的另一实现流程示意图,如图6所示,该方法可以包括以下步骤601至步骤606:

步骤601,确定基于第一配置模块引导配置的第一参数,所述第一参数用于指定目标任务;其中,所述第一配置模块包括至少一个候选任务。

在一些实施例中,所述第一配置模块上设置有每一候选任务对应的信息;相应地,响应于用户操作,进一步显示与所述用户操作指定的目标信息所对应的候选任务的注释说明;其中,所述注释说明用于解释所述候选任务。

例如图2所示,每一候选任务对应的信息可以是每一候选任务的相关的配置按钮(例如图2中“了解更多”按钮213),当电子设备检测到用户对这个配置按钮的点击操作时,响应该操作,确定目标信息,弹出来与目标信息对应的候选任务的注释说明。所述注释说明至少包括:所述候选任务的适用场景、场景样例、所述场景样例的相关参数和对应的机器学习流程图的示例。

例如,电子设备检测到对候选任务为“分类”对应的配置按钮213的点击操作,弹出来场景可以是分类的定义和解释,场景样例可以是要把图片分类成不同的动物,场景样例可以是要完成这个图片分类任务要配置的参数,以及对应的机器学习流程图的示例可以是对图片进行分类的机器学习流程图。如此,通过完整的说明导向,给用户一个配置示例和结果,引导低阶用户最终也能获得一个满意的机器学习模型。

步骤602,跳转至与所述目标任务关联的第二配置模块;

步骤603,确定基于第二配置模块配置的至少一个所述样本数据集。

在一些实施例中,通过第二配置模块上的数据上传子模块411引导用户对数据进行配置。数据上传子模块411上设置有提示信息。在一些实施例中,样本数据集可以包括训练数据集和/或测试数据集,对应地,提示信息可以为“请根据选择的问题上传训练数据和测试数据”。

步骤604,分析所述样本数据集中被选中的目标属性的特征值分布情况;其中,所述特征值分布情况用于引导配置对所述目标属性的特征值的处理方式。

特征值分布情况是多种多样的,例如:该目标属性的特征值的平均值、中位数、标准差、唯一值、最大值、最小值和/或缺失值等,其中,唯一值表示该目标属性下特征值的重复程度,即不与其他值相同的值有多少个,缺失值表示没有数据,例如,在该目标属性对应的数据列中,也即特征值列中,没有任何数据值的位置有多少个。电子设备可以通过数据分析子模块412分析被选中的目标属性的特征值分布情况,并展示给用户。

进而,用户可以根据特征值分布情况,配置对该目标属性的特征值的处理方式。例如,如果该目标属性缺失的特征值比较多,即缺失值较大的情况下,说明该目标属性的数据列不足以用来训练机器学习模型,那么用户可以将这个目标属性配置为禁止使用的属性,即对该目标属性的特征值的处理方式为禁止使用该目标属性的特征值。又如,用户将该目标属性的特征值配置为平均值,即对目标属性的特征值的处理方式为使用平均值代替这些原有的特征值,这样,在生成机器学习流程图时使用的该目标属性的特征值为平均值,而不是原始特征值。

在另一些实施例中,用户可以根据特征值分布情况进行更高级的配置,比如说一些涉及模型算法的配置,例如根据一个目标属性的特征值分布情况决定对该目标属性的特征值进行什么方式的预处理,并在后续的配置项中配置。

步骤605,确定基于第二配置模块配置的第一信息和第二信息;其中,所述第一信息用于指示指定属性的特征值的处理方式,所述第二信息用于指示预测目标。

在本申请实施例中,指定属性的特征值的处理方式可以为多种,例如,禁止使用该属性,即在生成机器学习流程图时不使用该属性下的特征值;又如,将该属性的特征值的中位数代替该属性的原有特征值,即在生成机器学习流程图时使用该属性下的中位数来训练相关参数。预测目标即机器学习流程图最终要完成的目标是什么,例如在人口普查中预测收入情况。用户可以将样本数据集中的某一属性配置为预测目标。

用户可以通过参数配置子模块413配置第一信息和第二信息。应当理解,步骤604和步骤605为可选步骤,也就是说,用户在实际配置过程中,可以只配置样本数据集;也可以根据经验确定第一信息和第二信息以后,直接在参数配置子模块413上配置,也就是只配置样本数据集、第一信息和第二信息;还可以只配置样本数据集,在电子设备分析被选中的目标属性的特征值分布情况后,不对第一信息和第二信息进行配置,而是根据特征值分布情况进行后续进行更高级的配置。

步骤606,根据所述第一参数和所述第二参数,生成机器学习流程图,所述机器学习流程图生成的机器学习模型用于执行所述目标任务。

图7为本申请实施例提供的机器学习流程图的生成方法的又一实现流程示意图,如图7所示,该方法可以包括以下步骤701至步骤706:

步骤701,确定基于第一配置模块引导配置的第一参数,所述第一参数用于指定目标任务;其中,所述第一配置模块包括至少一个候选任务;所述第一配置模块上设置有每一候选任务对应的信息;

步骤702,跳转至所述目标任务关联的第二配置模块;

步骤703,确定基于第二配置模块配置的至少一个所述样本数据集;

步骤704,分析被选中的目标属性的特征值分布情况;其中,所述特征值分布情况用于引导配置对所述目标属性的特征值的处理方式;

步骤705,确定基于第二配置模块配置的第一信息和第二信息;其中,所述第一信息用于指示指定属性的特征值的处理方式,所述第二信息用于指示预测目标。

步骤706,根据所述第一参数、所述第二参数和预设的默认参数,生成机器学习流程图,所述机器学习流程图生成的机器学习模型用于执行所述目标任务。

预设的默认参数是指根据当前机器学习模型建模的最佳实践确定的默认参数值。举例来说,部分跟模型相关的专业参数,需要对模型或者算法比较了解的用户才有能力设置,例如,随机参数、训练的轮次(即机器学习模型的训练次数)、图像的预处理方法等,这部分参数是根据经机器学习建模的最佳实践预先设置,不需要用户设置,如此,用户仅需完成少量的必填的配置即可获得结果,降低了本申请实施例的使用门槛。

在一些实施例中,所述第二参数还包括用以指示机器学习流程图的生成方式的参数;在指示的生成方式为动态生成方式的情况下,根据所述第一参数、所述第二参数和预设的默认参数,生成多个不同版本的机器学习流程图。

也就是说,在指示的生成方式为动态生成的情况下,可以生成多个处理复杂度不同或计算复杂度不同的机器学习流程图。例如,生成的机器学习流程图的节点和节点之间的有向连线相同,但是节点中使用的算法的复杂度不同,或者是后一个机器学习流程图在前一个机器学习流程图的基础上增加了节点,以对数据进行更加细化的处理。

如此,一方面,对于普通用户,用户可以选择其中效果较好的,与当前数据特征匹配的作为构建机器学习模型的机器学习流程图;另一方面,对于资深用户,可以选择符合自己要求的流程图作为构建机器学习模型的机器学习流程图;如此,能够简化资深用户的编辑操作;可见,通过一次配置就可以获得用户满意的机器学习流程图。

在一些实施例中,在生成多个不同版本的机器学习流程图之后,在第一窗口呈现所述多个不同版本的机器学习流程图的标识键;确定接收选择操作的目标标识键;响应于所述选择操作,在第二窗口呈现所述目标标识键对应的目标机器学习流程图和所述目标机器学习流程图的性能参数。

所述目标机器学习流程图的性能参数是指,在电子设备运行目标机器学习流程图生成的目标机器学习模型时,按照预设的性能评估指标达到的性能参数。例如,对图像进行识别的机器学习模型的性能参数可以为识别准确率等。如此,给用户提供选择参考,解决用户由于专业知识欠缺,决策困难的问题,进一步降低机器学习模型的构建和使用门槛,有效拓宽使用人群。

在一些实施例中,在步骤706之后,所述方法还包括:电子设备接收到可编辑指令后,根据可编辑指令指示的被选中的目标机器学习流程图,跳转至所述目标机器学习流程图的可编辑界面,以便用户可以对机器学习流程图进行编辑。如此,在多个机器学习流程图都不能使用户满意的情况下,用户可以选择与预期目标最接近的目标机器学习流程图进行编辑,从而获得用户满意的机器学习流程图。

近几年来,随着人工智能技术的高速发展,大量企业希望将人工智能技术应用于产业,为企业分析长期积累的生产数据,推进企业的信息化、智能化转型,提高生产效率及收益。然而,多数企业并不配备专业的人工智能技术团队,且组建这样的团队耗时长、成本高。

因此,市场亟需一种具有低门槛、高定制的建模能力的机器学习平台,让人工智能专家(资深用户)或是不具有人工智能背景知识的行业专家(初阶用户),都能高效地构建机器学习模型,降低机器学习的使用门槛和成本,使人工智能技术真正惠及各个行业,让每个企业都能享受到人工智能技术带来的红利。

相关的部分机器学习和人工智能平台均只采用拖拽算法节点构建机器学习流程图的形式进行建模。机器学习流程图是包含了生成机器学习模型的相关节点的一个流程图,是生成机器学习模型代码的抽象结构;机器学习流程图构建好后,运行机器学习流程图对应的代码,即可得到机器学习模型。用户通过自主选择所需的节点,逐一配置节点的参数,然后根据节点之间的数据关系连接它们,形成流程图,来实现机器学习模型的构建。

该方案的缺点是:一方面,用户如果没有较强的相关知识背景,可能不知道应该使用哪些模块,以及如何将模块连接成有效的机器学习流程,初阶用户难以顺利构建所需的机器学习流程,且学习成本太高;另一方面,对于资深用户而言,尽管这种方式提供了较高的灵活性,但拖拽和连线的过程耗时长且容易出现错漏,不易于快速准确地构建机器学习模型。

另一部分机器学习和人工智能平台不要求用户绘制机器学习流程图,而是采用填表的方式配置机器学习流程,模型训练结束后直接展示建模结果。

该方案的缺点是:一方面,该类产品由于没有展示具体的机器学习流程图,模型构建的过程如同一个黑盒,用户难以直观地了解建模过程;另一方面,这种建模方式虽然方便,却缺乏灵活性,用户无法根据具体的需求对模型的参数或流程图的结构进行调整。

基于此,下面将说明本申请实施例在一个实际的应用场景中的示例性应用。

本申请实施例通过逐步引导的配置,生成并展示一个可编辑的机器学习流程图。

在本申请实施例中,根据用户输入的简单的配置,例如要解决的问题类型、训练/测试数据、待预测特征及其他参数信息,即可获得自动生成机器学习流程图;可选的,用户可以根据需要对流程图进行编辑调整;获取的流程图可用于模型的训练及使用。

在本申请实施例中,一方面,让用户(无论是否有机器学习技术背景)只需要简单的配置,就能将机器学习技术运用自如,从而大大降低了机器学习模型的构建和使用的门槛,有效拓宽了使用人群;另一方面,因为用户通过简单的配置即可得到机器学习流程图,所以用户无需一个一个模块地拖拽和连接,从而有效提高了机器学习模型构建的效率,以及,也避免了用户选择错误的模块或连线,导致用户无法正常使用机器学习模型的问题,从而提高了机器学习模型构建的准确性;又一方面,用户可以在通过配置获得的流程图的基础上,编辑流程图以灵活实现自定义需求,因此本申请实施例提供的技术方案具有较高的定制能力。

本申请实施例通过逐步引导获取用户配置,生成并展示一个可编辑的机器学习流程图;

图8为本申请实施例提供的机器学习流程图的生成方法的再一实现流程示意图,如图8所示,该方法可以包括以下步骤801至步骤803:

步骤801,显示图形界面并提示用户输入;

步骤802,检测用户输入并获取机器学习流程配置;

步骤803,根据输入的配置参数,生成并展示可编辑的流程图。

以下将从几个要点具体介绍本方法的实施过程:

通过逐步引导进行配置;

通过图形界面引导用户对机器学习流程进行配置,配置内容包括但不限于:

(1)要解决的问题类型(如分类、聚类、回归或其他行业相关的任务类型);

(2)训练/测试数据;

(3)待预测特征;

其中,待预测特征是指预测的答案所在的数据项或者标签,例如,预测图片是否为猫,有一列数据表示“是”或“否”,这列数据的名称就是待预测特征;或者预测某个数据是哪个类别,这个类别就是待预测特征;

(4)其他参数信息等。

其中,一部分配置可能会根据前序配置进行显示或隐藏,从而对用户起到逐步引导的作用;例如,用户先选择要解决的问题类型,然后在根据问题类型展示配置数据的界面,假设他选择的任务类型是分类,那他后面要配置的数据跟聚类是不一样的。也就是说,先配置解决问题的类型,再根据任务类型自动确定配置数据;如此,从交互层面来说,逐步呈现用户要填写配置数据,逐步引导用户填写配置数据,改善用户体验,避免在配置信息的过程中必填的信息过多或表单过长而导致的用户失去耐心和体验感差等问题。

部分配置会根据机器学习建模的最佳实践预先设置默认值,用户仅需完成少量的必填的配置即可获得结果,降低了该方法的使用门槛。举例来说,部分配置跟模型相关的专业参数,需要对模型或者算法比较了解的用户才有能力设置,这部分专业参数是根据经验值设置,不需要用户设置。例如,随机参数、训练的轮次、图像的预处理方法等。

如图2所示,第一配置界面的示意图示出了多个候选任务、各候选任务的简单介绍以及相关的配置按钮、选择(Select)按钮和每一候选任务对应的图标。

例如,候选任务包括聚类(Clustering)、回归(Regression)和分类(Classification),聚类的解释说明为包括各种聚类算法,不同的聚类算法,适用不同密度和分布的数据(cover various clustering algorithms for data with differentdensities and distributions);回归的解释说明为包括主流的回归算法,可以从中选择最适合数据的算法(cover the mainstream regression algorithms,and will pick onethat fits data best);分类的解释说明为包括主流的分类流程,以及,最好的一个将在结果里被展示(cover the mainstream classification pipelines,and the best onewill be demonstracted in the results)。另外,用户通过观察图标就可以确定候选任务的使用场景,进而点击对应的选择按钮。

相关的配置按钮为“了解更多(Learn more)”,当电子设备检测到对这个配置按钮的点击操作时,会弹出来该配置按钮对应的候选任务的进一步的解释和更加详细的解释说明,包括:候选任务的适用场景的描述、样例及样例的配置示例、结果示例,比如电子设备检测到对分类下的“了解更多”按钮的点击操作,弹出来的样例可以是要把图片分类成不同的动物这种示例,要配置的参数以及对应的结果,如此,通过完整的说明导向,给用户一个配置示例和结果,引导低阶用户最终也能获得一个满意的机器学习流程图,进而获得一个满意的机器学习流程图。

在电子设备检测到对选择(Select)按钮的点击后,从第一配置界面切换到第二配置界面(即第二配置模块的部分内容),图9为本申请实施例提供的另一第二配置界面示意图,如图9所示,该界面展示了配置测试数据的窗口、按钮以及对应的解释说明;用户可以根据该界面的界面提示,点击相应的按钮,完成对测试数据的配置。

配置测试数据窗口可以包括上传数据(Upload data)窗口、检查数据类型(Checkdata type)窗口和配置(Setting)窗口,上传数据窗口对应的解释说明为“请根据选择的问题上传训练数据和测试数据(即样本数据集的一种示例)(please upload training dataand test data based on the problem selected)”;其中,上传数据(Upload data)窗口包括训练数据(Training data)和测试数据(Test data)的上传窗口,该窗口上设有本地文件(local file)和数据源(data source)按钮;本地文件(local file)和数据源(datasource)按钮对应的解释说明为“在这里删除数据文件或导入表单(Drop the data filehere or import form)”。

上传数据窗口还设有数据洞察(data insights)窗口,用于响应用户对选中的数据列,呈现该数据列的特征值分布情况。如图9所示的用以展示样本数据集的内容的列表,该表中每一列呈现了对应属性的特征值,例如,用户ID这一列呈现的是属性为“用户ID”的特征值;又如性别这一列呈现的是属性为“性别”的特征值。可以理解地,特征值分布情况帮助用户了解对应属性的特征值的分布情况。用户可以根据这些特征值分布情况配置对该属性的特征值的处理方式,例如是禁止使用该属性还是使用某一数值(如平均值、中位数等)代替,或者进行更高级的配置,比如说涉及模型算法的配置,高端用户做一些决策,例如,根据某一属性的特征值分布情况配置对该属性下的特征值进行什么预处理,在后续的配置项中配置。数据洞察窗口可以包括被选中的数据列的平均值(Mean)、中位数(Median)、标准差(standard deviation)、唯一值(unique value)、最大值(Max)、最小值(Min)和/或缺失值(missing value)等,其中,唯一值表示这列数据的重复程度,即不与其他值相同的值有多少个,缺失值表示没有数据,例如,数据洞察上方表格中被选中的数据列中的空格位置(即没有任何数据值)。另外,还可以通过数据柱状图来展示该数据列的特征值的分布情况,使用户能够更加直观地了解到该属性的特征值分布情况。

配置(Setting)窗口是为了配置一些其他参数,例如,配置ID和target,其中,ID用于配置数据列,target用于配置预测目标;例如,用户根据数洞察配置了ID(即某一属性),在后续模型训练时,不会用到这个ID对应的数据列。

用户完成配置后,便可获取自动生成的流程图。流程图的生成机制由大量机器学习解决方案的建模最佳实践总结而成。

图10为本申请实施例提供的根据用户配置自动生成的机器学习流程图,如图10所示,流程图中的节点均是可完成独立任务(例如数据导入,数据预处理,特征工程,预测等)的可执行单位,节点间的连线代表数据的相关关系,连接好的流程图可用于模型的训练及使用。

在一些实施例中,配置出来的机器学习流程图可以包括以下节点:数据导入节点(table reader),用来导入表格数据,行业解决方案的特征工程流程节点(industrysolution feature engineering pipeline Evaluation)、行业解决方案的超参数节点(industry solution hyper parameter)、超参数查询节点(hyper parameter search)、模型选择(model selection)节点可视化输出(visuallization output)节点、预测(prediction)节点、评估(evaluation)节点、合并结果(merge result)节点、数据输出(data output)节点和统计数据(statistics)节点。

可选的,用户可以一键跳转到流程图编辑界面,根据需要对机器学习流程图进行二次编辑,例如,修改参数、增删节点或节点之间的连接关系;如图5所示,左侧为可选节点的目录,包括输入(Input)、预处理(Preprocess)、分析(Analysis)、特征工程(FeatureEngineering)、算法(回归算法、分类算法、聚类算法)、输出(Output)和代码(Script),点击对应的目录,会展开目录下的模块供用户选择,例如,点击输入目录,会展开输入节点的目录,例如数据导入(table reader),用于导入数据;分析目录下的节点用于分析数据,例如数据洞察。算法目录下的算法节点用于设置不同的算法,点击拖动节点,可以添加到流程图里;代码节点表示用户可以自己写脚本代码。另外,还有部分不可选的节点的目录,例如,预测节点,用于获取预测结果;评估节点,用于将机器学习模型的评估结果展示给用户。

当选中流程图中的节点,右侧每个栏位会显示可以被编辑参数,用于对选中的节点的对应的节点参数进行编辑。如图5所示,当选中主成分分析(principal componentanalyze)这个节点时,右侧栏位会显示可以被编辑参数为输出模式(Output Mode)、处理类型(Process Types)、保留的成分个数(Number of Components to keep)、奇异值分解(SvdSolver)、允许偏差(Tolerance)、迭代幂(Iterated Power)、随机状态(Random State)、数据项(Columns)等。如此,配置完成后,当节点运行后,对应的节点中的会出现特定标识,表示这个节点的运行状态,例如,“对号”表示该节点成功运行。

对于获取配置后,生成流程图的实现机理、对生成的流程图的编辑之实现形式,以及生成流程图后对流程图的利用形式,本方法均不做限制。凡是通过逐步引导获取用户配置,生成一个可编辑的机器学习流程图的交互形式,都符合本方法的范围,易于检测。

基于前述的实施例,本申请实施例提供一种机器学习流程图的生成装置,该装置包括所包括的各单元,可以通过处理器来实现;当然也可通过具体的逻辑电路实现;在实施的过程中,处理器可以为中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)或现场可编程门阵列(FPGA)等。

图11为本申请实施例机器学习流程图的生成装置的结构示意图,如图11所示,所述装置110包括确定单元111和生成单元112,其中:

确定单元111,用于确定基于第一配置模块引导配置的第一参数,所述第一参数用于指定目标任务;其中,所述第一配置模块包括至少一个候选任务;

确定单元111,用于所述目标任务关联的第二配置模块;

所述确定单元111,还用于确定基于所述第二配置模块引导配置的第二参数;

在一些实施例中,生成单元112,用于根据所述第一参数和所述第二参数,生成机器学习流程图,所述机器学习流程图生成的机器学习模型用于执行所述目标任务。

在一些实施例中,所述确定单元111,用于确定配置的至少一个所述样本数据集;和/或分析所述样本数据集中被选中的目标属性的特征值分布情况;其中,所述特征值分布情况用于引导配置对所述目标属性的特征值的处理方式;和/或确定配置的第一信息和第二信息;其中,所述第一信息用于指示指定属性的特征值的处理方式,所述第二信息用于指示预测目标。

在一些实施例中,所述第一配置模块上设置有每一候选任务对应的信息;相应地,所述确定单元111,还用于响应于用户操作,进一步显示与所述用户操作指定的目标信息对应的候选任务的注释说明;其中,所述注释说明用于解释所述候选任务。所述注释说明至少包括:所述候选任务的适用场景、场景样例、所述场景样例的相关参数和对应的机器学习流程图的示例。

在一些实施例中,生成单元112,还用于接收可编辑指令;其中,所述可编辑指令用于指示编辑所述机器学习流程图;响应于所述可编辑指令,生成可编辑的所述机器学习流程图。

在一些实施例中,生成单元112,还用于根据所述第一参数、所述第二参数和预设的默认参数,生成机器学习流程图。

在一些实施例中,生成单元112,还用于在指示的生成方式为动态生成方式的情况下,根据所述第一参数、所述第二参数和预设的默认参数,生成多个不同版本的机器学习流程图。

在一些实施例中,生成单元112,还用于在第一窗口呈现所述多个不同版本的机器学习流程图的标识键;确定接收选择操作的目标标识键;响应于所述选择操作,在第二窗口呈现所述目标标识键对应的目标机器学习流程图和所述目标机器学习流程图的性能参数。

以上装置实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本申请装置实施例中未披露的技术细节,请参照本申请方法实施例的描述而理解。

需要说明的是,本申请实施例中图12所示的机器学习流程图的生成装置对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。另外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。也可以采用软件和硬件结合的形式实现。

需要说明的是,本申请实施例中,如果以软件功能单元的形式实现上述的方法,并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得电子设备执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本申请实施例不限制于任何特定的硬件和软件结合。

本申请实施例提供一种电子设备,图12为本申请实施例的电子设备的硬件实体示意图,如图12所示,所述电子设备120包括存储器121和处理器122,所述存储器121存储有可在处理器122上运行的计算机程序,所述处理器122执行所述程序时实现上述实施例中提供的方法中的步骤。

需要说明的是,存储器121配置为存储由处理器122可执行的指令和应用,还可以缓存待处理器122以及电子设备120中各单元待处理或已经处理的数据(例如,图像数据、音频数据、语音通信数据和视频通信数据),可以通过闪存(FLASH)或随机访问存储器(RandomAccess Memory,RAM)实现。

本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中提供的方法中的步骤。

本申请实施例提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述方法实施例提供的方法中的步骤。

这里需要指出的是:以上存储介质和设备实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本申请存储介质、存储介质和设备实施例中未披露的技术细节,请参照本申请方法实施例的描述而理解。

应理解,说明书通篇中提到的“一个实施例”或“一实施例”或“一些实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”或“在一些实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以互相参考,为了简洁,本文不再赘述。

本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如对象A和/或对象B,可以表示:单独存在对象A,同时存在对象A和对象B,单独存在对象B这三种情况。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者设备中还存在另外的相同要素。

在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个模块或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。

上述作为分离部件说明的模块可以是、或也可以不是物理上分开的,作为模块显示的部件可以是、或也可以不是物理模块;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部模块来实现本实施例方案的目的。

另外,在本申请各实施例中的各功能单元可以全部集成在一个处理模块中,也可以是各单元分别单独作为一个模块,也可以两个或两个以上单元集成在一个模块中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。

本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

或者,本申请上述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得电子设备执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

本申请所提供的几个方法实施例中所揭露的方法,在不冲突的情况下可以任意组合,得到新的方法实施例。

本申请所提供的几个产品实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的产品实施例。

本申请所提供的几个方法或设备实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的方法实施例或设备实施例。

以上所述,仅为本申请的实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号