关灯
护眼
字体:

第34章 数据融合异常

首页 书架 加入书签 返回目录

所以在预处理之后还有一个数据融合阶段。

    根据实验日志来看,问题就出现在了这一阶段。

    原本的数据融合算法在只有两种模态数据的时候,效果很好,但是当数据的模态数量逐渐上升,

    一些原本没有发现的bug逐渐显现出来,这也是导致最终效果不如原来模型的最为重要的原因。

    当然,也可能是因为过拟合,数据泄露,这种普遍性的问题,只不过仅根据这次的输出日志来看,可能性不大。

    “嗯......特征维度贡献方差过大?”划动滚轮的手指停下,周昀敏锐地看到了一条异常的输出。

    说人话就是,模型在融合信息的时候没有一个轻重缓急,对所有模态的数据都一视同仁,平等对待了所有输入。

    (本章未完,请点击下一页继续阅读)第34章数据融合异常(第2/2页)

    这在模态少的时候可能适用,因为数据输入之前,在无形之中其实是多了一个人工筛选的步骤。

    比如你要预测股票的涨跌,相比于各种专家的视频分析,你可能会更加相信各种金融指标,所以你就会下意识地选择各种数字指标输入模型,而不是专家的视频分析。

    这就隐含地为数据赋予了权重,虽然代码里没有,但它确实是真实存在的。

    不过人工筛选终究是有一些小问题的,在金融这个反人类的领域,光凭经验很多时候容易做出错误的判断。

    “也就是说,在数据融合的时候,缺少了一个‘智能筛选’的步骤,让模型知道,哪些数据重要,哪些数据不重要。”

    “数据筛选.......”周昀手指轻轻敲打着桌面,思考着解决办法。

    如果只是单纯的逻辑判断,肯定不行,这样太死板,还不如人来筛选。

    置信度?

    周昀想了一下,也觉得不行。

    置信度其实就是模型对自己输出结果的把握大小,例如一个分类任务,最终模型的输出会在Softmax函数的作用下,变成一连串的概率,

    比如分类到A的概率为80%,B任务的概率为10%以此类推。

    那么置信度就是采用概率大于一定数值的结果。

    这东西听上去玄乎,实际上也是一种比较死板的逻辑判断。

    除了这两种,筛选数据的方法其实还有很多,不过周昀都不满意,因为这些方法从他们的底层逻辑来看,都没有达到他想要看到的“智能”。

    突然,周昀手指一顿。

    如果从另一方面来看,数据筛选,还可以看作是一种数据蒸馏。

    数据蒸馏其实很好理解,蒸馏大家都知道,那么数据蒸馏就是通过某种手段将数据集提纯的方法。

    恰好,周昀发在NeurIPS上的AgileEdge这篇论文里就有一种数据蒸

温馨提示:亲爱的读者,为了避免丢失和转马,请勿依赖搜索访问,建议你收藏【久久小说】 m.gfxfgs.com。我们将持续为您更新!

请勿开启浏览器阅读模式,可能将导致章节内容缺失及无法阅读下一章。

上一页 目录 下一页