anonymousland-synapse/synapse/util/ratelimitutils.py

# Copyright 2015, 2016 OpenMarket Ltd
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#     http://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

import collections
import contextlib
import logging
import typing
from typing import Any, DefaultDict, Iterator, List, Set

from twisted.internet import defer

from synapse.api.errors import LimitExceededError
from synapse.config.ratelimiting import FederationRatelimitSettings
from synapse.logging.context import (
    PreserveLoggingContext,
    make_deferred_yieldable,
    run_in_background,
)
from synapse.logging.opentracing import start_active_span
from synapse.metrics import Histogram
from synapse.util import Clock

if typing.TYPE_CHECKING:
    from contextlib import _GeneratorContextManager

logger = logging.getLogger(__name__)


queue_wait_timer = Histogram(
    "synapse_rate_limit_queue_wait_time_seconds",
    "sec",
    [],
    buckets=(
        0.005,
        0.01,
        0.025,
        0.05,
        0.1,
        0.25,
        0.5,
        0.75,
        1.0,
        2.5,
        5.0,
        10.0,
        20.0,
        "+Inf",
    ),
)


class FederationRateLimiter:
    def __init__(self, clock: Clock, config: FederationRatelimitSettings):
        def new_limiter() -> "_PerHostRatelimiter":
            return _PerHostRatelimiter(clock=clock, config=config)

        self.ratelimiters: DefaultDict[
            str, "_PerHostRatelimiter"
        ] = collections.defaultdict(new_limiter)

    def ratelimit(self, host: str) -> "_GeneratorContextManager[defer.Deferred[None]]":
        """Used to ratelimit an incoming request from a given host

        Example usage:

            with rate_limiter.ratelimit(origin) as wait_deferred:
                yield wait_deferred
                # Handle request ...

        Args:
            host (str): Origin of incoming request.

        Returns:
            context manager which returns a deferred.
        """
        return self.ratelimiters[host].ratelimit()


class _PerHostRatelimiter:
    def __init__(self, clock: Clock, config: FederationRatelimitSettings):
        """
        Args:
            clock
            config
        """
        self.clock = clock

        self.window_size = config.window_size
        self.sleep_limit = config.sleep_limit
        self.sleep_sec = config.sleep_delay / 1000.0
        self.reject_limit = config.reject_limit
        self.concurrent_requests = config.concurrent

        # request_id objects for requests which have been slept
        self.sleeping_requests: Set[object] = set()

        # map from request_id object to Deferred for requests which are ready
        # for processing but have been queued
        self.ready_request_queue: collections.OrderedDict[
            object, defer.Deferred[None]
        ] = collections.OrderedDict()

        # request id objects for requests which are in progress
        self.current_processing: Set[object] = set()

        # times at which we have recently (within the last window_size ms)
        # received requests.
        self.request_times: List[int] = []

    @contextlib.contextmanager
    def ratelimit(self) -> "Iterator[defer.Deferred[None]]":
        # `contextlib.contextmanager` takes a generator and turns it into a
        # context manager. The generator should only yield once with a value
        # to be returned by manager.
        # Exceptions will be reraised at the yield.

        request_id = object()
        ret = self._on_enter(request_id)
        try:
            yield ret
        finally:
            self._on_exit(request_id)

    def _on_enter(self, request_id: object) -> "defer.Deferred[None]":
        time_now = self.clock.time_msec()

        # remove any entries from request_times which aren't within the window
        self.request_times[:] = [
            r for r in self.request_times if time_now - r < self.window_size
        ]

        # reject the request if we already have too many queued up (either
        # sleeping or in the ready queue).
        queue_size = len(self.ready_request_queue) + len(self.sleeping_requests)
        if queue_size > self.reject_limit:
            raise LimitExceededError(
                retry_after_ms=int(self.window_size / self.sleep_limit)
            )

        self.request_times.append(time_now)

        def queue_request() -> "defer.Deferred[None]":
            if len(self.current_processing) >= self.concurrent_requests:
                queue_defer: defer.Deferred[None] = defer.Deferred()
                self.ready_request_queue[request_id] = queue_defer
                logger.info(
                    "Ratelimiter: queueing request (queue now %i items)",
                    len(self.ready_request_queue),
                )

                return queue_defer
            else:
                return defer.succeed(None)

        logger.debug(
            "Ratelimit [%s]: len(self.request_times)=%d",
            id(request_id),
            len(self.request_times),
        )

        if len(self.request_times) > self.sleep_limit:
            logger.debug("Ratelimiter: sleeping request for %f sec", self.sleep_sec)
            ret_defer = run_in_background(self.clock.sleep, self.sleep_sec)

            self.sleeping_requests.add(request_id)

            def on_wait_finished(_: Any) -> "defer.Deferred[None]":
                logger.debug("Ratelimit [%s]: Finished sleeping", id(request_id))
                self.sleeping_requests.discard(request_id)
                queue_defer = queue_request()
                return queue_defer

            ret_defer.addBoth(on_wait_finished)
        else:
            ret_defer = queue_request()

        def on_start(r: object) -> object:
            logger.debug("Ratelimit [%s]: Processing req", id(request_id))
            self.current_processing.add(request_id)
            return r

        def on_err(r: object) -> object:
            # XXX: why is this necessary? this is called before we start
            # processing the request so why would the request be in
            # current_processing?
            self.current_processing.discard(request_id)
            return r

        def on_both(r: object) -> object:
            # Ensure that we've properly cleaned up.
            self.sleeping_requests.discard(request_id)
            self.ready_request_queue.pop(request_id, None)
            wait_span_scope.__exit__(None, None, None)
            wait_timer_cm.__exit__(None, None, None)
            return r

        # Tracing
        wait_span_scope = start_active_span("ratelimit wait")
        wait_span_scope.__enter__()
        # Metrics
        wait_timer_cm = queue_wait_timer.time()
        wait_timer_cm.__enter__()

        ret_defer.addCallbacks(on_start, on_err)
        ret_defer.addBoth(on_both)
        return make_deferred_yieldable(ret_defer)

    def _on_exit(self, request_id: object) -> None:
        logger.debug("Ratelimit [%s]: Processed req", id(request_id))
        self.current_processing.discard(request_id)
        try:
            # start processing the next item on the queue.
            _, deferred = self.ready_request_queue.popitem(last=False)

            with PreserveLoggingContext():
                deferred.callback(None)
        except KeyError:
            pass
copyrights 2016-01-06 23:26:29 -05:00			`# Copyright 2015, 2016 OpenMarket Ltd`
Move federation rate limiting out of transport layer 2015-02-27 10:41:52 -05:00			`#`
			`# Licensed under the Apache License, Version 2.0 (the "License");`
			`# you may not use this file except in compliance with the License.`
			`# You may obtain a copy of the License at`
			`#`
			`# http://www.apache.org/licenses/LICENSE-2.0`
			`#`
			`# Unless required by applicable law or agreed to in writing, software`
			`# distributed under the License is distributed on an "AS IS" BASIS,`
			`# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.`
			`# See the License for the specific language governing permissions and`
			`# limitations under the License.`

run isort 2018-07-09 02:09:20 -04:00			`import collections`
			`import contextlib`
			`import logging`
Add types to synapse.util. (#10601) 2021-09-10 12:03:18 -04:00			`import typing`
			`from typing import Any, DefaultDict, Iterator, List, Set`
run isort 2018-07-09 02:09:20 -04:00
Move federation rate limiting out of transport layer 2015-02-27 10:41:52 -05:00			`from twisted.internet import defer`

			`from synapse.api.errors import LimitExceededError`
Rename `RateLimitConfig` to `RatelimitSettings` (#13442) 2022-08-03 05:40:20 -04:00			`from synapse.config.ratelimiting import FederationRatelimitSettings`
Move logging utilities out of the side drawer of util/ and into logging/ (#5606) 2019-07-03 10:07:04 -04:00			`from synapse.logging.context import (`
Fix logcontext leaks in rate limiter 2018-05-03 06:16:36 -04:00			`PreserveLoggingContext,`
run isort 2018-07-09 02:09:20 -04:00			`make_deferred_yieldable,`
			`run_in_background,`
Fix logcontext leaks in rate limiter 2018-05-03 06:16:36 -04:00			`)`
Instrument `FederationStateIdsServlet` - `/state_ids` (#13499) Instrument FederationStateIdsServlet - `/state_ids` so it's easier to follow what's going on in Jaeger when viewing a trace. 2022-08-15 14:41:23 -04:00			`from synapse.logging.opentracing import start_active_span`
Add metrics to track rate limiter queue timing (#13544) 2022-08-17 05:38:05 -04:00			`from synapse.metrics import Histogram`
Add types to synapse.util. (#10601) 2021-09-10 12:03:18 -04:00			`from synapse.util import Clock`

			`if typing.TYPE_CHECKING:`
			`from contextlib import _GeneratorContextManager`
Move federation rate limiting out of transport layer 2015-02-27 10:41:52 -05:00
			`logger = logging.getLogger(__name__)`


Add metrics to track rate limiter queue timing (#13544) 2022-08-17 05:38:05 -04:00			`queue_wait_timer = Histogram(`
			`"synapse_rate_limit_queue_wait_time_seconds",`
			`"sec",`
			`[],`
			`buckets=(`
			`0.005,`
			`0.01,`
			`0.025,`
			`0.05,`
			`0.1,`
			`0.25,`
			`0.5,`
			`0.75,`
			`1.0,`
			`2.5,`
			`5.0,`
			`10.0,`
			`20.0,`
			`"+Inf",`
			`),`
			`)`


Stop sub-classing object (#8249) 2020-09-04 06:54:56 -04:00			`class FederationRateLimiter:`
Rename `RateLimitConfig` to `RatelimitSettings` (#13442) 2022-08-03 05:40:20 -04:00			`def __init__(self, clock: Clock, config: FederationRatelimitSettings):`
Add types to synapse.util. (#10601) 2021-09-10 12:03:18 -04:00			`def new_limiter() -> "_PerHostRatelimiter":`
Fixes to the federation rate limiter (#5621) - Put the default window_size back to 1000ms (broken by #5181) - Make the `rc_federation` config actually do something - fix an off-by-one error in the 'concurrent' limit - Avoid creating an unused `_PerHostRatelimiter` object for every single incoming request 2019-07-05 06:10:19 -04:00			`return _PerHostRatelimiter(clock=clock, config=config)`

Add types to synapse.util. (#10601) 2021-09-10 12:03:18 -04:00			`self.ratelimiters: DefaultDict[`
			`str, "_PerHostRatelimiter"`
			`] = collections.defaultdict(new_limiter)`
Move federation rate limiting out of transport layer 2015-02-27 10:41:52 -05:00
Add types to synapse.util. (#10601) 2021-09-10 12:03:18 -04:00			`def ratelimit(self, host: str) -> "_GeneratorContextManager[defer.Deferred[None]]":`
Performance improvements and refactor of Ratelimiter (#7595) While working on https://github.com/matrix-org/synapse/issues/5665 I found myself digging into the `Ratelimiter` class and seeing that it was both: * Rather undocumented, and * causing a lot of config checks This PR attempts to refactor and comment the `Ratelimiter` class, as well as encourage config file accesses to only be done at instantiation. Best to be reviewed commit-by-commit. 2020-06-05 05:47:20 -04:00			`"""Used to ratelimit an incoming request from a given host`
Move federation rate limiting out of transport layer 2015-02-27 10:41:52 -05:00
			`Example usage:`

			`with rate_limiter.ratelimit(origin) as wait_deferred:`
			`yield wait_deferred`
			`# Handle request ...`

			`Args:`
			`host (str): Origin of incoming request.`

			`Returns:`
Fixes to the federation rate limiter (#5621) - Put the default window_size back to 1000ms (broken by #5181) - Make the `rc_federation` config actually do something - fix an off-by-one error in the 'concurrent' limit - Avoid creating an unused `_PerHostRatelimiter` object for every single incoming request 2019-07-05 06:10:19 -04:00			`context manager which returns a deferred.`
Move federation rate limiting out of transport layer 2015-02-27 10:41:52 -05:00			`"""`
Fixes to the federation rate limiter (#5621) - Put the default window_size back to 1000ms (broken by #5181) - Make the `rc_federation` config actually do something - fix an off-by-one error in the 'concurrent' limit - Avoid creating an unused `_PerHostRatelimiter` object for every single incoming request 2019-07-05 06:10:19 -04:00			`return self.ratelimiters[host].ratelimit()`
Move federation rate limiting out of transport layer 2015-02-27 10:41:52 -05:00

Stop sub-classing object (#8249) 2020-09-04 06:54:56 -04:00			`class _PerHostRatelimiter:`
Rename `RateLimitConfig` to `RatelimitSettings` (#13442) 2022-08-03 05:40:20 -04:00			`def __init__(self, clock: Clock, config: FederationRatelimitSettings):`
Make all the rate limiting options more consistent (#5181) 2019-05-15 13:06:04 -04:00			`"""`
			`Args:`
Add types to synapse.util. (#10601) 2021-09-10 12:03:18 -04:00			`clock`
			`config`
Make all the rate limiting options more consistent (#5181) 2019-05-15 13:06:04 -04:00			`"""`
Move federation rate limiting out of transport layer 2015-02-27 10:41:52 -05:00			`self.clock = clock`

Make all the rate limiting options more consistent (#5181) 2019-05-15 13:06:04 -04:00			`self.window_size = config.window_size`
			`self.sleep_limit = config.sleep_limit`
			`self.sleep_sec = config.sleep_delay / 1000.0`
			`self.reject_limit = config.reject_limit`
			`self.concurrent_requests = config.concurrent`
Move federation rate limiting out of transport layer 2015-02-27 10:41:52 -05:00
Make FederationRateLimiter queue requests properly popitem removes the most recent item by default [1]. We want the oldest. Fixes #3524 [1]: https://docs.python.org/2/library/collections.html#collections.OrderedDict.popitem 2018-07-13 11:19:40 -04:00			`# request_id objects for requests which have been slept`
Add types to synapse.util. (#10601) 2021-09-10 12:03:18 -04:00			`self.sleeping_requests: Set[object] = set()`
Make FederationRateLimiter queue requests properly popitem removes the most recent item by default [1]. We want the oldest. Fixes #3524 [1]: https://docs.python.org/2/library/collections.html#collections.OrderedDict.popitem 2018-07-13 11:19:40 -04:00
			`# map from request_id object to Deferred for requests which are ready`
			`# for processing but have been queued`
Add types to synapse.util. (#10601) 2021-09-10 12:03:18 -04:00			`self.ready_request_queue: collections.OrderedDict[`
			`object, defer.Deferred[None]`
			`] = collections.OrderedDict()`
Make FederationRateLimiter queue requests properly popitem removes the most recent item by default [1]. We want the oldest. Fixes #3524 [1]: https://docs.python.org/2/library/collections.html#collections.OrderedDict.popitem 2018-07-13 11:19:40 -04:00
			`# request id objects for requests which are in progress`
Add types to synapse.util. (#10601) 2021-09-10 12:03:18 -04:00			`self.current_processing: Set[object] = set()`
Make FederationRateLimiter queue requests properly popitem removes the most recent item by default [1]. We want the oldest. Fixes #3524 [1]: https://docs.python.org/2/library/collections.html#collections.OrderedDict.popitem 2018-07-13 11:19:40 -04:00
			`# times at which we have recently (within the last window_size ms)`
			`# received requests.`
Add types to synapse.util. (#10601) 2021-09-10 12:03:18 -04:00			`self.request_times: List[int] = []`
Move federation rate limiting out of transport layer 2015-02-27 10:41:52 -05:00
Use contextlib.contextmanager instead of a custom class 2015-03-02 08:32:44 -05:00			`@contextlib.contextmanager`
Add types to synapse.util. (#10601) 2021-09-10 12:03:18 -04:00			`def ratelimit(self) -> "Iterator[defer.Deferred[None]]":`
Use contextlib.contextmanager instead of a custom class 2015-03-02 08:32:44 -05:00			# `contextlib.contextmanager` takes a generator and turns it into a
			`# context manager. The generator should only yield once with a value`
			`# to be returned by manager.`
			`# Exceptions will be reraised at the yield.`
Move federation rate limiting out of transport layer 2015-02-27 10:41:52 -05:00
Use contextlib.contextmanager instead of a custom class 2015-03-02 08:32:44 -05:00			`request_id = object()`
			`ret = self._on_enter(request_id)`
			`try:`
			`yield ret`
			`finally:`
			`self._on_exit(request_id)`
Move federation rate limiting out of transport layer 2015-02-27 10:41:52 -05:00
Add types to synapse.util. (#10601) 2021-09-10 12:03:18 -04:00			`def _on_enter(self, request_id: object) -> "defer.Deferred[None]":`
Move federation rate limiting out of transport layer 2015-02-27 10:41:52 -05:00			`time_now = self.clock.time_msec()`
Make FederationRateLimiter queue requests properly popitem removes the most recent item by default [1]. We want the oldest. Fixes #3524 [1]: https://docs.python.org/2/library/collections.html#collections.OrderedDict.popitem 2018-07-13 11:19:40 -04:00
			`# remove any entries from request_times which aren't within the window`
Move federation rate limiting out of transport layer 2015-02-27 10:41:52 -05:00			`self.request_times[:] = [`
			`r for r in self.request_times if time_now - r < self.window_size`
			`]`

Make FederationRateLimiter queue requests properly popitem removes the most recent item by default [1]. We want the oldest. Fixes #3524 [1]: https://docs.python.org/2/library/collections.html#collections.OrderedDict.popitem 2018-07-13 11:19:40 -04:00			`# reject the request if we already have too many queued up (either`
			`# sleeping or in the ready queue).`
Move federation rate limiting out of transport layer 2015-02-27 10:41:52 -05:00			`queue_size = len(self.ready_request_queue) + len(self.sleeping_requests)`
			`if queue_size > self.reject_limit:`
			`raise LimitExceededError(`
			`retry_after_ms=int(self.window_size / self.sleep_limit)`
			`)`

			`self.request_times.append(time_now)`

Add types to synapse.util. (#10601) 2021-09-10 12:03:18 -04:00			`def queue_request() -> "defer.Deferred[None]":`
Fixes to the federation rate limiter (#5621) - Put the default window_size back to 1000ms (broken by #5181) - Make the `rc_federation` config actually do something - fix an off-by-one error in the 'concurrent' limit - Avoid creating an unused `_PerHostRatelimiter` object for every single incoming request 2019-07-05 06:10:19 -04:00			`if len(self.current_processing) >= self.concurrent_requests:`
Add types to synapse.util. (#10601) 2021-09-10 12:03:18 -04:00			`queue_defer: defer.Deferred[None] = defer.Deferred()`
Move federation rate limiting out of transport layer 2015-02-27 10:41:52 -05:00			`self.ready_request_queue[request_id] = queue_defer`
Make FederationRateLimiter queue requests properly popitem removes the most recent item by default [1]. We want the oldest. Fixes #3524 [1]: https://docs.python.org/2/library/collections.html#collections.OrderedDict.popitem 2018-07-13 11:19:40 -04:00			`logger.info(`
			`"Ratelimiter: queueing request (queue now %i items)",`
			`len(self.ready_request_queue),`
			`)`

Move federation rate limiting out of transport layer 2015-02-27 10:41:52 -05:00			`return queue_defer`
			`else:`
			`return defer.succeed(None)`

			`logger.debug(`
			`"Ratelimit [%s]: len(self.request_times)=%d",`
			`id(request_id),`
			`len(self.request_times),`
			`)`

			`if len(self.request_times) > self.sleep_limit:`
Make FederationRateLimiter queue requests properly popitem removes the most recent item by default [1]. We want the oldest. Fixes #3524 [1]: https://docs.python.org/2/library/collections.html#collections.OrderedDict.popitem 2018-07-13 11:19:40 -04:00			`logger.debug("Ratelimiter: sleeping request for %f sec", self.sleep_sec)`
			`ret_defer = run_in_background(self.clock.sleep, self.sleep_sec)`
Move federation rate limiting out of transport layer 2015-02-27 10:41:52 -05:00
			`self.sleeping_requests.add(request_id)`

Add types to synapse.util. (#10601) 2021-09-10 12:03:18 -04:00			`def on_wait_finished(_: Any) -> "defer.Deferred[None]":`
Move federation rate limiting out of transport layer 2015-02-27 10:41:52 -05:00			`logger.debug("Ratelimit [%s]: Finished sleeping", id(request_id))`
			`self.sleeping_requests.discard(request_id)`
			`queue_defer = queue_request()`
			`return queue_defer`

			`ret_defer.addBoth(on_wait_finished)`
			`else:`
			`ret_defer = queue_request()`

Add types to synapse.util. (#10601) 2021-09-10 12:03:18 -04:00			`def on_start(r: object) -> object:`
Move federation rate limiting out of transport layer 2015-02-27 10:41:52 -05:00			`logger.debug("Ratelimit [%s]: Processing req", id(request_id))`
			`self.current_processing.add(request_id)`
			`return r`

Add types to synapse.util. (#10601) 2021-09-10 12:03:18 -04:00			`def on_err(r: object) -> object:`
Fix logcontext leaks in rate limiter 2018-05-03 06:16:36 -04:00			`# XXX: why is this necessary? this is called before we start`
			`# processing the request so why would the request be in`
			`# current_processing?`
Move federation rate limiting out of transport layer 2015-02-27 10:41:52 -05:00			`self.current_processing.discard(request_id)`
			`return r`

Add types to synapse.util. (#10601) 2021-09-10 12:03:18 -04:00			`def on_both(r: object) -> object:`
Move federation rate limiting out of transport layer 2015-02-27 10:41:52 -05:00			`# Ensure that we've properly cleaned up.`
			`self.sleeping_requests.discard(request_id)`
			`self.ready_request_queue.pop(request_id, None)`
Instrument `FederationStateIdsServlet` - `/state_ids` (#13499) Instrument FederationStateIdsServlet - `/state_ids` so it's easier to follow what's going on in Jaeger when viewing a trace. 2022-08-15 14:41:23 -04:00			`wait_span_scope.__exit__(None, None, None)`
Add metrics to track rate limiter queue timing (#13544) 2022-08-17 05:38:05 -04:00			`wait_timer_cm.__exit__(None, None, None)`
Move federation rate limiting out of transport layer 2015-02-27 10:41:52 -05:00			`return r`

Add metrics to track rate limiter queue timing (#13544) 2022-08-17 05:38:05 -04:00			`# Tracing`
Instrument `FederationStateIdsServlet` - `/state_ids` (#13499) Instrument FederationStateIdsServlet - `/state_ids` so it's easier to follow what's going on in Jaeger when viewing a trace. 2022-08-15 14:41:23 -04:00			`wait_span_scope = start_active_span("ratelimit wait")`
			`wait_span_scope.__enter__()`
Add metrics to track rate limiter queue timing (#13544) 2022-08-17 05:38:05 -04:00			`# Metrics`
			`wait_timer_cm = queue_wait_timer.time()`
			`wait_timer_cm.__enter__()`

Move federation rate limiting out of transport layer 2015-02-27 10:41:52 -05:00			`ret_defer.addCallbacks(on_start, on_err)`
			`ret_defer.addBoth(on_both)`
Fix logcontext leaks in rate limiter 2018-05-03 06:16:36 -04:00			`return make_deferred_yieldable(ret_defer)`
Move federation rate limiting out of transport layer 2015-02-27 10:41:52 -05:00
Add types to synapse.util. (#10601) 2021-09-10 12:03:18 -04:00			`def _on_exit(self, request_id: object) -> None:`
Move federation rate limiting out of transport layer 2015-02-27 10:41:52 -05:00			`logger.debug("Ratelimit [%s]: Processed req", id(request_id))`
			`self.current_processing.discard(request_id)`
			`try:`
Make FederationRateLimiter queue requests properly popitem removes the most recent item by default [1]. We want the oldest. Fixes #3524 [1]: https://docs.python.org/2/library/collections.html#collections.OrderedDict.popitem 2018-07-13 11:19:40 -04:00			`# start processing the next item on the queue.`
			`_, deferred = self.ready_request_queue.popitem(last=False)`
Fix logcontext leaks in rate limiter 2018-05-03 06:16:36 -04:00
			`with PreserveLoggingContext():`
			`deferred.callback(None)`
Move federation rate limiting out of transport layer 2015-02-27 10:41:52 -05:00			`except KeyError:`
			`pass`