有什么办法让flink只查询cache的数据？-[阿里云_云淘科技]

匿名 • 2023年12月13日下午6:14 • 阿里云

使用flink sql 的lookup join，一边是kafka流表，一边是mysql维表，我启用了cache，有什么办法让flink只查询cache的数据，如果查不到就直接输出join结果，不要再去mysql里查数据？

以下为热心网友提供的参考意见

在Flink SQL中，当使用lookup join时，如果启用了cache，那么Flink会尝试先从缓存中查找数据。如果在缓存中找不到匹配的记录，则Flink默认的行为是去源数据库（例如MySQL）查询。

要实现您描述的需求，即只查询缓存中的数据，如果查不到就直接输出join结果，而不再去源数据库查询，通常需要在代码层面进行定制。因为Flink本身并不提供这样的配置选项。不过，您可以考虑以下两种策略来接近您的需求：

设置较短的缓存失效时间：
通过设置较短的缓存失效时间，可以尽量保证大部分情况下，维表数据都能在缓存中找到。但是请注意，这种方法并不能确保所有情况下都不会去源数据库查询，因为它依赖于数据的更新频率和查询请求的时间点。
自定义LookupFunction：
可以考虑自定义一个LookupFunction，并在其中实现所需的逻辑。这个自定义函数可以在查询缓存未命中时返回一个特定的值，而不是去源数据库查询。这样就可以确保所有的查询都只依赖于缓存数据。

以下是关于如何创建自定义LookupFunction的简要说明：

以下为热心网友提供的参考意见

mysql的 lookup.cache.strategy. 设置为all 。此回答整理自钉群“实时计算Flink产品交流群”

本文来自投稿，不代表新手站长_郑州云淘科技有限公司立场，如若转载，请注明出处：http://www.cnzhanzhang.com/12375.html