Add staleness control #445

chenyushuo · 2025-12-16T11:54:56Z

Description

As the title says. A complete version of #382.

Motivation:

Issues could happen with current queue buffer when sync_style = dynamic_by_explorer:

For FIFO queue: if trainer is slower than explorer, the queue will become longer and longer (until it hits the capacity limit), and staleness of samples for training also keep increasing.
For priority queue: if (1) the priority function prefers fresher samples, and (2) the explorer gets slow at some point (e.g., near the end of the whole RFT process, the explorer might have stopped completely while trainer is still working), then it is possible that the priority queue will output samples of increasing staleness, causing instability and even model performance degradation.

Usage:

Here's a example of how to enable staleness control in your configuration:

algorithm:
  ...
  sample_strategy: staleness_control
  sample_strategy_args:
    max_staleness: 10

Checklist

Please check the following items before code is ready to be reviewed.

Code has passed all tests
Docstrings have been added/updated in Google Style
Documentation has been updated
Code is ready for review

gemini-code-assist · 2025-12-16T11:55:24Z

Summary of Changes

Hello @chenyushuo, I'm Gemini Code Assist¹! I'm currently reviewing this pull request and will post my feedback shortly. In the meantime, here's a summary to help you and other reviewers quickly get up to speed!

This pull request introduces a robust 'staleness control' feature designed to manage the freshness of experiences sampled from different buffer types. It implements a new sampling strategy that discards experiences older than a configurable staleness_limit, thereby ensuring that models are consistently trained on more relevant and up-to-date data. This enhancement required extending existing buffer reader APIs, updating the experience storage schemas to track model versions, and modifying both queue and SQL storage backends to enforce this staleness filtering during experience retrieval.

Highlights

New Staleness Control Sampling Strategy: Introduced a new StalenessControlSampleStrategy that extends the default sampling strategy, allowing experiences to be filtered based on their 'staleness' relative to the current training step or model version.
Extended Buffer Reader API: The BufferReader interface and its concrete implementations for file, queue, and SQL storage have been updated to accept additional keyword arguments, specifically oldest_valid_version, enabling dynamic control over experience retrieval.
Enhanced Experience Model Schema: The ExperienceModel used for SQL storage now includes new columns, train_step and explore_step, to persistently store the model version and batch ID associated with each experience, which is crucial for staleness checks.
Staleness Filtering in Storage Backends: Modified both queue-based and SQL-based experience storage mechanisms to actively filter out experiences that are older than a specified oldest_valid_version during the read process.
Comprehensive Testing for Staleness Control: A new test file, sample_strategy_test.py, has been added to provide extensive test coverage for the new staleness control strategy across various buffer configurations, ensuring its correct functionality.

Using Gemini Code Assist

The full guide for Gemini Code Assist can be found on our documentation page, here are some quick tips.

Invoking Gemini

You can request assistance from Gemini at any point by creating a comment using either /gemini <command> or @gemini-code-assist <command>. Below is a summary of the supported commands on the current page.

Feature	Command	Description
Code Review	`/gemini review`	Performs a code review for the current pull request in its current state.
Pull Request Summary	`/gemini summary`	Provides a summary of the current pull request in its current state.
Comment	@gemini-code-assist	Responds in comments when explicitly tagged, both in pull request comments and review comments.
Help	`/gemini help`	Displays a list of available commands.

Customization

To customize Gemini Code Assist for GitHub experience, repository maintainers can create a configuration file and/or provide a custom code review style guide (such as PEP-8 for Python) by creating and adding files to a .gemini/ folder in the base of the repository. Detailed instructions can be found here.

Limitations & Feedback

Gemini Code Assist may make mistakes. Please leave feedback on any instances where its feedback is incorrect or counter productive. You can react with 👍 and 👎 on @gemini-code-assist comments. If you're interested in giving your feedback about your experience with Gemini Code Assist for Github and other Google products, sign up here.

You can also get AI-powered code generation, chat, as well as code reviews directly in the IDE at no cost with the Gemini Code Assist IDE Extension.

Review the Privacy Notices, Generative AI Prohibited Use Policy, Terms of Service, and learn how to configure Gemini Code Assist in GitHub here. Gemini can make mistakes, so double check it and use code with caution. ↩

chenyushuo · 2025-12-16T11:55:46Z

/unittest-all

gemini-code-assist

Code Review

This pull request introduces staleness control for experience sampling, a valuable feature for improving training stability. A new StalenessControlSampleStrategy is added, and various buffer components are updated to support filtering by oldest_valid_version. The implementation for queue-based and SQL priority-based buffers appears correct. However, I've identified some areas where the implementation is incomplete, which would prevent staleness control from functioning with file-based readers and the FIFO SQL reader. I've provided specific comments on how to address these issues. Additionally, there's some commented-out test code that should be removed for code cleanliness.

trinity/buffer/reader/file_reader.py

trinity/buffer/storage/sql.py

tests/buffer/sample_strategy_test.py

trinity/algorithm/sample_strategy/sample_strategy.py

github-actions · 2025-12-16T13:21:57Z

Summary

Tests 📝	Passed ✅	Failed ❌	Skipped ⏭️	Other ❓	Flaky 🍂	Duration ⏱️
214	209	2	3	0	0	1h 23m

Failed Tests

Failed Tests ❌	Fail Message
❌ tests/explorer/explorer_test.py::ServeTest::test_serve	The test failed in the call phase due to an exception
❌ tests/service/data_juicer_test.py::TestDataJuicerExperiencePipeline::test_data_juicer_operators	The test failed in the call phase

Skipped

Tests	Status
tests/explorer/workflow_test.py::TestAgentScopeWorkflowAdapter::test_adapter	skipped ⏭️
tests/trainer/trainer_test.py::TestMultiModalGRPO::test_trainer	skipped ⏭️
tests/trainer/trainer_test.py::TestMultiModalSFT::test_trainer	skipped ⏭️

Tests

Test Name	Status	Duration
tests/algorithm/advantage_fn_test.py::TestGroupedAdvantageFn::test_batch_level_std_grpo	✅	289ms
tests/algorithm/advantage_fn_test.py::TestGroupedAdvantageFn::test_batch_level_step_wise_grpo_advantage	✅	2ms
tests/algorithm/advantage_fn_test.py::TestGroupedAdvantageFn::test_duplicate_grpo	✅	5ms
tests/algorithm/advantage_fn_test.py::TestGroupedAdvantageFn::test_grpo_advantage	✅	3ms
tests/algorithm/advantage_fn_test.py::TestGroupedAdvantageFn::test_grpo_correct_bias	✅	2ms
tests/algorithm/advantage_fn_test.py::TestGroupedAdvantageFn::test_grpo_reward_std	✅	1ms
tests/algorithm/advantage_fn_test.py::TestGroupedAdvantageFn::test_step_wise_grpo_advantage	✅	2ms
tests/algorithm/advantage_fn_test.py::TestGroupedAdvantageFn::test_step_wise_grpo_with_std_threshold	✅	2ms
tests/algorithm/kl_fn_test.py::KLFnTest::test_abs_kl_fn	✅	1ms
tests/algorithm/kl_fn_test.py::KLFnTest::test_corrected_k3_fallback	✅	1ms
tests/algorithm/kl_fn_test.py::KLFnTest::test_corrected_k3_loss	✅	1ms
tests/algorithm/kl_fn_test.py::KLFnTest::test_corrected_k3_same_policy	✅	1ms
tests/algorithm/kl_fn_test.py::KLFnTest::test_corrected_k3_with_old_logprob	✅	1ms
tests/algorithm/kl_fn_test.py::KLFnTest::test_dummy_kl_fn	✅	1ms
tests/algorithm/kl_fn_test.py::KLFnTest::test_k1_kl_fn	✅	1ms
tests/algorithm/kl_fn_test.py::KLFnTest::test_k2_kl_fn	✅	1ms
tests/algorithm/kl_fn_test.py::KLFnTest::test_k3_kl_fn	✅	1ms
tests/algorithm/kl_fn_test.py::KLFnTest::test_kl_loss_aggregation_modes	✅	1ms
tests/algorithm/kl_fn_test.py::KLFnTest::test_low_var_kl_fn	✅	1ms
tests/algorithm/policy_loss_test.py::VerlPolicyLossTest::test_dpo_policy_loss	✅	1ms
tests/algorithm/policy_loss_test.py::VerlPolicyLossTest::test_gspo_policy_loss	✅	1ms
tests/algorithm/policy_loss_test.py::VerlPolicyLossTest::test_mix_policy_loss	✅	1ms
tests/algorithm/policy_loss_test.py::VerlPolicyLossTest::test_opmd_policy_loss	✅	1ms
tests/algorithm/policy_loss_test.py::VerlPolicyLossTest::test_ppo_policy_loss	✅	1ms
tests/algorithm/policy_loss_test.py::VerlPolicyLossTest::test_ppo_policy_loss_with_sequence_masking	✅	1ms
tests/algorithm/policy_loss_test.py::VerlPolicyLossTest::test_sapo_policy_loss	✅	1ms
tests/algorithm/policy_loss_test.py::VerlPolicyLossTest::test_sft_policy_loss	✅	1ms
tests/buffer/experience_pipeline_test.py::TestExperiencePipeline::test_experience_pipeline	✅	20.3s
tests/buffer/experience_pipeline_test.py::TestExperiencePipeline::test_pass_rate_calculation	✅	21.6s
tests/buffer/experience_storage_test.py::ExperienceStorageTest::test_sql_experience_buffer	✅	4.3s
tests/buffer/experience_storage_test.py::ExperienceStorageTest::test_sql_storage_0_sft	✅	5.9s
tests/buffer/experience_storage_test.py::ExperienceStorageTest::test_sql_storage_1_dpo	✅	6.6s
tests/buffer/file_test.py::TestFileBuffer::test_file_reader	✅	158ms
tests/buffer/file_test.py::TestFileBuffer::test_file_writer	✅	4.6s
tests/buffer/formatter_test.py::TestFormatter::test_dpo_messages_formatter	✅	533ms
tests/buffer/formatter_test.py::TestFormatter::test_dpo_plaintext_formatter	✅	449ms
tests/buffer/formatter_test.py::TestFormatter::test_multi_modal_sft_formatter	✅	867ms
tests/buffer/formatter_test.py::TestFormatter::test_sft_messages_formatter	✅	959ms
tests/buffer/formatter_test.py::TestFormatter::test_sft_plaintext_formatter	✅	696ms
tests/buffer/formatter_test.py::TestFormatter::test_task_formatter	✅	219ms
tests/buffer/queue_test.py::TestQueueBuffer::test_priority_queue_buffer_reuse	✅	9.0s
tests/buffer/queue_test.py::TestQueueBuffer::test_priority_queue_capacity	✅	5.2s
tests/buffer/queue_test.py::TestQueueBuffer::test_priority_queue_reuse_count_control	✅	7.1s
tests/buffer/queue_test.py::TestQueueBuffer::test_queue_buffer_0_queue	✅	6.2s
tests/buffer/queue_test.py::TestQueueBuffer::test_queue_buffer_1_priority_queue	✅	6.2s
tests/buffer/queue_test.py::TestQueueBuffer::test_queue_buffer_capacity	✅	6.7s
tests/buffer/reader_test.py::TestBufferReader::test_buffer_reader_registration	✅	618ms
tests/buffer/reward_shaping_mapper_test.py::TestRewardShapingMapper::test_basic_usage	✅	6ms
tests/buffer/sample_strategy_test.py::ExperienceStorageTest::test_default_queue_default_sample_strategy	✅	4.8s
tests/buffer/sample_strategy_test.py::ExperienceStorageTest::test_default_queue_staleness_control_sample_strategy	✅	4.7s
tests/buffer/sample_strategy_test.py::ExperienceStorageTest::test_priority_queue_default_sample_strategy	✅	4.6s
tests/buffer/sample_strategy_test.py::ExperienceStorageTest::test_priority_queue_staleness_control_sample_strategy	✅	5.0s
tests/buffer/sql_test.py::TestSQLBuffer::test_sql_exp_buffer_read_write	✅	4.3s
tests/buffer/sql_test.py::TestSQLBuffer::test_sql_task_buffer_read_write	✅	4.8s
tests/buffer/task_scheduler_test.py::TestTaskScheduler::test_task_scheduler_0	✅	90ms
tests/buffer/task_scheduler_test.py::TestTaskScheduler::test_task_scheduler_1	✅	72ms
tests/buffer/task_scheduler_test.py::TestTaskScheduler::test_task_scheduler_2	✅	110ms
tests/buffer/task_scheduler_test.py::TestTaskScheduler::test_task_scheduler_3	✅	112ms
tests/buffer/task_scheduler_test.py::TestTaskScheduler::test_task_scheduler_4	✅	111ms
tests/buffer/task_scheduler_test.py::TestTaskScheduler::test_task_scheduler_5	✅	116ms
tests/buffer/task_scheduler_test.py::TestTaskScheduler::test_task_scheduler_6	✅	130ms
tests/buffer/task_scheduler_test.py::TestTaskScheduler::test_task_scheduler_simple	✅	58ms
tests/buffer/task_storage_test.py::TaskStorageTest::test_read_task_0_file	✅	72ms
tests/buffer/task_storage_test.py::TaskStorageTest::test_read_task_1_sql	✅	4.3s
tests/buffer/task_storage_test.py::TaskStorageTest::test_read_task_2_file	✅	52ms
tests/buffer/task_storage_test.py::TaskStorageTest::test_read_task_3_sql	✅	4.1s
tests/buffer/task_storage_test.py::TaskStorageTest::test_read_task_4_file	✅	51ms
tests/buffer/task_storage_test.py::TaskStorageTest::test_read_task_5_sql	✅	4.6s
tests/cli/launcher_test.py::TestLauncherMain::test_debug_mode	✅	50.0s
tests/cli/launcher_test.py::TestLauncherMain::test_main_run_command	✅	6.6s
tests/cli/launcher_test.py::TestLauncherMain::test_main_run_in_dlc	✅	1.5s
tests/cli/launcher_test.py::TestLauncherMain::test_main_studio_command	✅	314ms
tests/cli/launcher_test.py::TestLauncherMain::test_multi_stage_run	✅	1.7s
tests/common/config_test.py::TestConfig::test_all_examples_are_valid	✅	34.6s
tests/common/config_test.py::TestConfig::test_chat_template_path	✅	95ms
tests/common/config_test.py::TestConfig::test_config_flatten	✅	42ms
tests/common/config_test.py::TestConfig::test_continue_from_checkpoint_is_valid	✅	191ms
tests/common/config_test.py::TestConfig::test_default_workflow	✅	93ms
tests/common/config_test.py::TestConfig::test_load_default_config	✅	3.8s
tests/common/config_test.py::TestConfig::test_max_token_len_per_gpu_set_correctly	✅	94ms
tests/common/config_test.py::TestConfig::test_optimizer_config_propagation	✅	93ms
tests/common/config_test.py::TestConfig::test_update_config_from_ray_cluster	✅	158ms
tests/common/experience_test.py::TestEID::test_eid_properties	✅	1ms
tests/common/experience_test.py::TestExperience::test_action_mask_and_logprobs_type	✅	1ms
tests/common/experience_test.py::TestExperience::test_assertions	✅	1ms
tests/common/experience_test.py::TestExperience::test_dpo_experience	✅	1ms
tests/common/experience_test.py::TestExperience::test_gather	✅	1ms
tests/common/experience_test.py::TestExperience::test_gather_with_token_level_reward	✅	1ms
tests/common/experience_test.py::TestExperience::test_hf_datasets_conversion	✅	15ms
tests/common/experience_test.py::TestExperience::test_multi_turn_experience	✅	1ms
tests/common/experience_test.py::TestExperience::test_serialize_deserialize	✅	1ms
tests/common/experience_test.py::TestExperience::test_single_turn_experience	✅	1ms
tests/common/experience_test.py::TestExperience::test_to_dict	✅	1ms
tests/common/experience_test.py::TestExperienceConversion::test_batch_conversion	✅	1ms
tests/common/experience_test.py::TestExperienceConversion::test_dpo_experience_batch_conversion	✅	1ms
tests/common/experience_test.py::TestExperienceConversion::test_experience_model_experience_conversion	✅	1ms
tests/common/experience_test.py::TestExperienceConversion::test_gather_experiences_with_custom_fields	✅	1ms
tests/common/experience_test.py::TestExperienceConversion::test_multiturn_experience_batch_converstion	✅	1ms
tests/common/vllm_test.py::ModelWrapperTest_0::test_generate	✅	52.2s
tests/common/vllm_test.py::ModelWrapperTest_1::test_generate	✅	32.2s
tests/common/vllm_test.py::ModelWrapperTest_2::test_generate	✅	43.1s
tests/common/vllm_test.py::TestModelLen_0::test_model_len	✅	16.1s
tests/common/vllm_test.py::TestModelLen_1::test_model_len	✅	15.7s
tests/common/vllm_test.py::TestModelLen_2::test_model_len	✅	15.9s
tests/common/vllm_test.py::TestModelLenWithoutPromptTruncation::test_model_len	✅	15.5s
tests/common/vllm_test.py::TestAPIServer::test_api	✅	21.0s
tests/common/vllm_test.py::TestLogprobs::test_logprobs_api	✅	16.0s
tests/common/vllm_test.py::TestAsyncAPIServer::test_api_async	✅	20.4s
tests/common/vllm_test.py::TestTokenizer::test_action_mask	✅	257ms
tests/common/vllm_test.py::TestTokenizer::test_action_mask_with_tools	✅	244ms
tests/common/vllm_test.py::TestAPIServerToolCall_0_deepseek_r1::test_api_tool_calls	✅	17.7s
tests/common/vllm_test.py::TestAPIServerToolCall_1::test_api_tool_calls	✅	15.9s
tests/common/vllm_test.py::TestSuperLongGeneration::test_generate	✅	1m 27s
tests/explorer/explorer_test.py::TestExplorerCountdownEval::test_explorer	✅	1m 29s
tests/explorer/explorer_test.py::TestExplorerGSM8KRULERNoEval::test_explorer	✅	1m 42s
tests/explorer/explorer_test.py::TestExplorerGSM8k::test_explorer	✅	3m 38s
tests/explorer/explorer_test.py::ServeTest::test_serve	❌	1m 18s
tests/explorer/scheduler_test.py::SchedulerTest::test_async_workflow	✅	13.0s
tests/explorer/scheduler_test.py::SchedulerTest::test_concurrent_operations	✅	12.4s
tests/explorer/scheduler_test.py::SchedulerTest::test_dynamic_timeout	✅	20.6s
tests/explorer/scheduler_test.py::SchedulerTest::test_get_results	✅	28.0s
tests/explorer/scheduler_test.py::SchedulerTest::test_metric_calculation_with_non_repeatable_workflow_0	✅	12.7s
tests/explorer/scheduler_test.py::SchedulerTest::test_metric_calculation_with_non_repeatable_workflow_1	✅	12.7s
tests/explorer/scheduler_test.py::SchedulerTest::test_metric_calculation_with_repeatable_workflow_0	✅	12.8s
tests/explorer/scheduler_test.py::SchedulerTest::test_metric_calculation_with_repeatable_workflow_1	✅	12.7s
tests/explorer/scheduler_test.py::SchedulerTest::test_multi_step_execution	✅	13.0s
tests/explorer/scheduler_test.py::SchedulerTest::test_non_repeatable_workflow	✅	12.7s
tests/explorer/scheduler_test.py::SchedulerTest::test_over_rollout_min_wait	✅	16.4s
tests/explorer/scheduler_test.py::SchedulerTest::test_scheduler_all_methods	✅	22.5s
tests/explorer/scheduler_test.py::SchedulerTest::test_scheduler_restart_after_stop	✅	24.4s
tests/explorer/scheduler_test.py::SchedulerTest::test_split_tasks	✅	16.5s
tests/explorer/scheduler_test.py::SchedulerTest::test_stepwise_experience_eid	✅	33.0s
tests/explorer/scheduler_test.py::SchedulerTest::test_wait_all	✅	15.7s
tests/explorer/scheduler_test.py::SchedulerTest::test_wait_all_timeout_with_multi_batch	✅	21.2s
tests/explorer/scheduler_test.py::TestRunnerStateCollection::test_runner_state_collection	✅	17.6s
tests/explorer/step_wise_workflow_test.py::WorkflowTest::test_reward_propagation_workflow_0	✅	2ms
tests/explorer/step_wise_workflow_test.py::WorkflowTest::test_reward_propagation_workflow_1	✅	602ms
tests/explorer/step_wise_workflow_test.py::WorkflowTest::test_step_wise_reward_workflow_0	✅	2ms
tests/explorer/step_wise_workflow_test.py::WorkflowTest::test_step_wise_reward_workflow_1	✅	1.0s
tests/explorer/step_wise_workflow_test.py::WorkflowTest::test_workflows_raise_error	✅	1ms
tests/explorer/step_wise_workflow_test.py::WorkflowTest::test_workflows_stop_at_max_env_steps	✅	1.0s
tests/explorer/workflow_test.py::WorkflowTest::test_gsm8k_workflow	✅	18ms
tests/explorer/workflow_test.py::WorkflowTest::test_math_boxed_workflow	✅	26ms
tests/explorer/workflow_test.py::WorkflowTest::test_math_complex_workflow	✅	269ms
tests/explorer/workflow_test.py::WorkflowTest::test_math_eval_workflow	✅	4ms
tests/explorer/workflow_test.py::WorkflowTest::test_math_fraction_workflow	✅	17ms
tests/explorer/workflow_test.py::WorkflowTest::test_math_workflow	✅	10ms
tests/explorer/workflow_test.py::WorkflowTest::test_rm_gallery_workflow	✅	118ms
tests/explorer/workflow_test.py::WorkflowTest::test_workflow_repeatable_0	✅	1ms
tests/explorer/workflow_test.py::WorkflowTest::test_workflow_repeatable_1	✅	101ms
tests/explorer/workflow_test.py::WorkflowTest::test_workflow_resettable_0	✅	1ms
tests/explorer/workflow_test.py::WorkflowTest::test_workflow_resettable_1	✅	201ms
tests/explorer/workflow_test.py::MultiTurnWorkflowTest_0::test_multi_turn_workflow	✅	14.7s
tests/explorer/workflow_test.py::MultiTurnWorkflowTest_1::test_multi_turn_workflow	✅	15.2s
tests/explorer/workflow_test.py::TestWorkflowStateRecording::test_workflow_state_recording	✅	4.0s
tests/explorer/workflow_test.py::TestAgentScopeWorkflowAdapter::test_adapter	⏭️	1ms
tests/explorer/workflow_test.py::TestWorkflowRunner::test_workflow_runner	✅	304ms
tests/explorer/workflow_test.py::TestWorkflowRunner::test_workflow_runner_get_state	✅	8.1s
tests/explorer/workflow_test.py::TestWorkflowRunner::test_workflow_with_openai	✅	17.5s
tests/manager/synchronizer_test.py::TestSynchronizerExit::test_synchronizer	✅	1m 5s
tests/manager/synchronizer_test.py::TestStateDictBasedSynchronizer_0::test_synchronizer	✅	1m 50s
tests/manager/synchronizer_test.py::TestStateDictBasedSynchronizer_1::test_synchronizer	✅	1m 51s
tests/manager/synchronizer_test.py::TestStateDictBasedSynchronizer_2::test_synchronizer	✅	2m 41s
tests/manager/synchronizer_test.py::TestStateDictBasedSynchronizer_3::test_synchronizer	✅	2m 32s
tests/manager/synchronizer_test.py::TestNCCLBasedSynchronizer_0::test_synchronizer	✅	1m 47s
tests/manager/synchronizer_test.py::TestNCCLBasedSynchronizer_1::test_synchronizer	✅	1m 45s
tests/service/data_juicer_test.py::TestDataJuicer::test_config	✅	1.7s
tests/service/data_juicer_test.py::TestDataJuicer::test_server_start	✅	21.6s
tests/service/data_juicer_test.py::TestDataJuicerExperiencePipeline::test_data_juicer_operators	❌	24.8s
tests/service/data_juicer_test.py::TestDataJuicerTaskPipeline::test_data_juicer_task_pipeline	✅	14.3s
tests/trainer/trainer_test.py::TestTrainerCountdown_0_fsdp::test_trainer	✅	3m 10s
tests/trainer/trainer_test.py::TestTrainerCountdown_1_megatron::test_trainer	✅	4m 45s
tests/trainer/trainer_test.py::TestStepAheadAsyncRL::test_trainer	✅	1m 30s
tests/trainer/trainer_test.py::TestTrainerGSM8K_0_fsdp::test_trainer	✅	1m 20s
tests/trainer/trainer_test.py::TestTrainerGSM8K_1_fsdp2::test_trainer	✅	1m 21s
tests/trainer/trainer_test.py::TestTrainerGSM8K_2_fsdp::test_trainer	✅	1m 23s
tests/trainer/trainer_test.py::TestTrainerGSM8K_3_fsdp2::test_trainer	✅	1m 36s
tests/trainer/trainer_test.py::TestTrainerSFTWarmupGSM8K::test_trainer	✅	2m 33s
tests/trainer/trainer_test.py::TestTrainerDPO::test_trainer	✅	1m 2s
tests/trainer/trainer_test.py::TestTrainerSFT::test_trainer	✅	58.5s
tests/trainer/trainer_test.py::TestTrainerToolsSFT::test_trainer_tools	✅	59.4s
tests/trainer/trainer_test.py::TestFullyAsyncMode_0_fsdp::test_fully_async_mode	✅	1m 55s
tests/trainer/trainer_test.py::TestFullyAsyncMode_1_fsdp::test_fully_async_mode	✅	1m 56s
tests/trainer/trainer_test.py::TestFullyAsyncMode_2_megatron::test_fully_async_mode	✅	2m 39s
tests/trainer/trainer_test.py::TestTrainerCheckpointSave_0_fsdp::test_trainer	✅	2m 23s
tests/trainer/trainer_test.py::TestTrainerCheckpointSave_1_megatron::test_trainer	✅	4m 21s
tests/trainer/trainer_test.py::TestTrainerMIX::test_trainer	✅	2m 35s
tests/trainer/trainer_test.py::TestMultiModalGRPO::test_trainer	⏭️	811ms
tests/trainer/trainer_test.py::TestMultiModalSFT::test_trainer	⏭️	809ms
tests/trainer/trainer_test.py::TestTrainerLoRA::test_trainer	✅	3m 30s
tests/trainer/trainer_test.py::TestOverRollout::test_trainer	✅	1m 20s
tests/trainer/trainer_test.py::TestTrainerPromptTruncation::test_trainer	✅	1m 11s
tests/utils/eval_utils_test.py::TestComputeScore::test_both_boxed_and_equivalent	✅	16ms
tests/utils/eval_utils_test.py::TestComputeScore::test_both_boxed_and_not_equivalent	✅	1ms
tests/utils/eval_utils_test.py::TestComputeScore::test_empty_ground_truth	✅	2ms
tests/utils/eval_utils_test.py::TestComputeScore::test_empty_solution_string	✅	1ms
tests/utils/eval_utils_test.py::TestComputeScore::test_multiple_boxed_answers_in_solution	✅	2ms
tests/utils/eval_utils_test.py::TestComputeScore::test_solution_boxed_truth_raw_and_equivalent	✅	1ms
tests/utils/eval_utils_test.py::TestComputeScore::test_solution_boxed_truth_raw_and_not_equivalent	✅	1ms
tests/utils/eval_utils_test.py::TestComputeScore::test_solution_not_boxed	✅	1ms
tests/utils/eval_utils_test.py::TestComputeScore::test_solution_raw_and_ground_truth_boxed_equivalent	✅	1ms
tests/utils/eval_utils_test.py::TestMathEvalUtils::test_extract_answer	✅	4ms
tests/utils/eval_utils_test.py::TestMathEvalUtils::test_verify_math_answer	✅	76ms
tests/utils/eval_utils_test.py::TestEvalUtils::test_is_equiv	✅	6ms
tests/utils/log_test.py::LogTest::test_actor_log	✅	5.1s
tests/utils/log_test.py::LogTest::test_group_by_node	✅	4.9s
tests/utils/log_test.py::LogTest::test_no_actor_log	✅	906ms
tests/utils/plugin_test.py::TestPluginLoader::test_load_plugins_local_0__workspace_tests_utils_plugins	✅	99ms
tests/utils/plugin_test.py::TestPluginLoader::test_load_plugins_local_1_tests_utils_plugins	✅	96ms
tests/utils/plugin_test.py::TestPluginLoader::test_load_plugins_remote_0__workspace_tests_utils_plugins	✅	22.7s
tests/utils/plugin_test.py::TestPluginLoader::test_load_plugins_remote_1_tests_utils_plugins	✅	22.2s
tests/utils/plugin_test.py::TestPluginLoader::test_passing_custom_class_0__workspace_tests_utils_plugins	✅	12.1s
tests/utils/plugin_test.py::TestPluginLoader::test_passing_custom_class_1_tests_utils_plugins	✅	11.8s
tests/utils/registry_test.py::TestRegistry::test_dynamic_import	✅	4.3s

Github Test Reporter by CTRF 💚

…_staleness_control

chenyushuo · 2025-12-18T03:03:03Z

/unittest-all

github-actions · 2025-12-18T03:05:29Z

Summary

Tests 📝	Passed ✅	Failed ❌	Skipped ⏭️	Other ❓	Flaky 🍂	Duration ⏱️
0	0	0	0	0	0	14.4s

Tests

Test Name	Status	Flaky	Duration

Github Test Reporter by CTRF 💚

chenyushuo · 2025-12-18T03:07:28Z

/unittest-all

github-actions · 2025-12-18T03:09:47Z

Summary

Tests 📝	Passed ✅	Failed ❌	Skipped ⏭️	Other ❓	Flaky 🍂	Duration ⏱️
0	0	0	0	0	0	14.2s

Tests

Test Name	Status	Flaky	Duration

Github Test Reporter by CTRF 💚

chenyushuo · 2025-12-18T04:10:51Z

/unittest-all

github-actions · 2025-12-18T05:24:35Z

Summary

Tests 📝	Passed ✅	Failed ❌	Skipped ⏭️	Other ❓	Flaky 🍂	Duration ⏱️
225	221	0	4	0	0	1h 11m

Skipped

Tests	Status
tests/explorer/explorer_test.py::ServeTest::test_serve	skipped ⏭️
tests/explorer/workflow_test.py::TestAgentScopeWorkflowAdapter::test_adapter	skipped ⏭️
tests/trainer/trainer_test.py::TestMultiModalGRPO::test_trainer	skipped ⏭️
tests/trainer/trainer_test.py::TestMultiModalSFT::test_trainer	skipped ⏭️

Tests

Test Name	Status	Duration
tests/algorithm/advantage_fn_test.py::TestGroupedAdvantageFn::test_batch_level_std_grpo	✅	42ms
tests/algorithm/advantage_fn_test.py::TestGroupedAdvantageFn::test_batch_level_step_wise_grpo_advantage	✅	3ms
tests/algorithm/advantage_fn_test.py::TestGroupedAdvantageFn::test_duplicate_grpo	✅	5ms
tests/algorithm/advantage_fn_test.py::TestGroupedAdvantageFn::test_grpo_advantage	✅	3ms
tests/algorithm/advantage_fn_test.py::TestGroupedAdvantageFn::test_grpo_correct_bias	✅	2ms
tests/algorithm/advantage_fn_test.py::TestGroupedAdvantageFn::test_grpo_reward_std	✅	1ms
tests/algorithm/advantage_fn_test.py::TestGroupedAdvantageFn::test_step_wise_grpo_advantage	✅	2ms
tests/algorithm/advantage_fn_test.py::TestGroupedAdvantageFn::test_step_wise_grpo_with_std_threshold	✅	2ms
tests/algorithm/kl_fn_test.py::KLFnTest::test_abs_kl_fn	✅	1ms
tests/algorithm/kl_fn_test.py::KLFnTest::test_corrected_k3_fallback	✅	1ms
tests/algorithm/kl_fn_test.py::KLFnTest::test_corrected_k3_loss	✅	1ms
tests/algorithm/kl_fn_test.py::KLFnTest::test_corrected_k3_same_policy	✅	1ms
tests/algorithm/kl_fn_test.py::KLFnTest::test_corrected_k3_with_old_logprob	✅	1ms
tests/algorithm/kl_fn_test.py::KLFnTest::test_dummy_kl_fn	✅	1ms
tests/algorithm/kl_fn_test.py::KLFnTest::test_k1_kl_fn	✅	1ms
tests/algorithm/kl_fn_test.py::KLFnTest::test_k2_kl_fn	✅	1ms
tests/algorithm/kl_fn_test.py::KLFnTest::test_k3_kl_fn	✅	1ms
tests/algorithm/kl_fn_test.py::KLFnTest::test_kl_loss_aggregation_modes	✅	1ms
tests/algorithm/kl_fn_test.py::KLFnTest::test_low_var_kl_fn	✅	1ms
tests/algorithm/policy_loss_test.py::VerlPolicyLossTest::test_dpo_policy_loss	✅	2ms
tests/algorithm/policy_loss_test.py::VerlPolicyLossTest::test_gspo_policy_loss	✅	1ms
tests/algorithm/policy_loss_test.py::VerlPolicyLossTest::test_mix_policy_loss	✅	3ms
tests/algorithm/policy_loss_test.py::VerlPolicyLossTest::test_opmd_policy_loss	✅	1ms
tests/algorithm/policy_loss_test.py::VerlPolicyLossTest::test_ppo_policy_loss	✅	1ms
tests/algorithm/policy_loss_test.py::VerlPolicyLossTest::test_ppo_policy_loss_with_sequence_masking	✅	1ms
tests/algorithm/policy_loss_test.py::VerlPolicyLossTest::test_sapo_policy_loss	✅	1ms
tests/algorithm/policy_loss_test.py::VerlPolicyLossTest::test_sft_policy_loss	✅	1ms
tests/buffer/experience_pipeline_test.py::TestExperiencePipeline::test_experience_pipeline	✅	15.8s
tests/buffer/experience_pipeline_test.py::TestExperiencePipeline::test_pass_rate_calculation	✅	7.2s
tests/buffer/experience_storage_test.py::ExperienceStorageTest::test_sql_experience_buffer	✅	2.8s
tests/buffer/experience_storage_test.py::ExperienceStorageTest::test_sql_storage_0_sft	✅	4.8s
tests/buffer/experience_storage_test.py::ExperienceStorageTest::test_sql_storage_1_dpo	✅	6.1s
tests/buffer/file_test.py::TestFileBuffer::test_file_reader	✅	157ms
tests/buffer/file_test.py::TestFileBuffer::test_file_writer	✅	1.9s
tests/buffer/formatter_test.py::TestFormatter::test_dpo_messages_formatter	✅	534ms
tests/buffer/formatter_test.py::TestFormatter::test_dpo_plaintext_formatter	✅	452ms
tests/buffer/formatter_test.py::TestFormatter::test_multi_modal_sft_formatter	✅	1.3s
tests/buffer/formatter_test.py::TestFormatter::test_sft_messages_formatter	✅	972ms
tests/buffer/formatter_test.py::TestFormatter::test_sft_plaintext_formatter	✅	716ms
tests/buffer/formatter_test.py::TestFormatter::test_task_formatter	✅	221ms
tests/buffer/queue_test.py::TestQueueBuffer::test_priority_queue_buffer_reuse	✅	6.6s
tests/buffer/queue_test.py::TestQueueBuffer::test_priority_queue_capacity	✅	2.4s
tests/buffer/queue_test.py::TestQueueBuffer::test_priority_queue_reuse_count_control	✅	4.5s
tests/buffer/queue_test.py::TestQueueBuffer::test_queue_buffer_0_queue	✅	3.6s
tests/buffer/queue_test.py::TestQueueBuffer::test_queue_buffer_1_priority_queue	✅	3.4s
tests/buffer/queue_test.py::TestQueueBuffer::test_queue_buffer_capacity	✅	4.0s
tests/buffer/reader_test.py::TestBufferReader::test_buffer_reader_registration	✅	613ms
tests/buffer/reward_shaping_mapper_test.py::TestRewardShapingMapper::test_basic_usage	✅	7ms
tests/buffer/sample_strategy_test.py::ExperienceStorageTest_0::test_default_queue_default_sample_strategy	✅	1.9s
tests/buffer/sample_strategy_test.py::ExperienceStorageTest_0::test_default_queue_staleness_control_sample_strategy	✅	2.1s
tests/buffer/sample_strategy_test.py::ExperienceStorageTest_0::test_priority_queue_default_sample_strategy	✅	1.9s
tests/buffer/sample_strategy_test.py::ExperienceStorageTest_0::test_priority_queue_staleness_control_sample_strategy	✅	1.9s
tests/buffer/sample_strategy_test.py::ExperienceStorageTest_0::test_sql_staleness_control_sample_strategy	✅	5.0s
tests/buffer/sample_strategy_test.py::ExperienceStorageTest_1::test_default_queue_default_sample_strategy	✅	2.1s
tests/buffer/sample_strategy_test.py::ExperienceStorageTest_1::test_default_queue_staleness_control_sample_strategy	✅	2.1s
tests/buffer/sample_strategy_test.py::ExperienceStorageTest_1::test_priority_queue_default_sample_strategy	✅	1.9s
tests/buffer/sample_strategy_test.py::ExperienceStorageTest_1::test_priority_queue_staleness_control_sample_strategy	✅	1.9s
tests/buffer/sample_strategy_test.py::ExperienceStorageTest_1::test_sql_staleness_control_sample_strategy	✅	4.1s
tests/buffer/sql_test.py::TestSQLBuffer::test_sql_exp_buffer_read_write	✅	3.0s
tests/buffer/sql_test.py::TestSQLBuffer::test_sql_task_buffer_read_write	✅	3.3s
tests/buffer/task_scheduler_test.py::TestTaskScheduler::test_task_scheduler_0	✅	90ms
tests/buffer/task_scheduler_test.py::TestTaskScheduler::test_task_scheduler_1	✅	71ms
tests/buffer/task_scheduler_test.py::TestTaskScheduler::test_task_scheduler_2	✅	110ms
tests/buffer/task_scheduler_test.py::TestTaskScheduler::test_task_scheduler_3	✅	110ms
tests/buffer/task_scheduler_test.py::TestTaskScheduler::test_task_scheduler_4	✅	110ms
tests/buffer/task_scheduler_test.py::TestTaskScheduler::test_task_scheduler_5	✅	115ms
tests/buffer/task_scheduler_test.py::TestTaskScheduler::test_task_scheduler_6	✅	131ms
tests/buffer/task_scheduler_test.py::TestTaskScheduler::test_task_scheduler_simple	✅	59ms
tests/buffer/task_storage_test.py::TaskStorageTest::test_read_task_0_file	✅	72ms
tests/buffer/task_storage_test.py::TaskStorageTest::test_read_task_1_sql	✅	3.4s
tests/buffer/task_storage_test.py::TaskStorageTest::test_read_task_2_file	✅	52ms
tests/buffer/task_storage_test.py::TaskStorageTest::test_read_task_3_sql	✅	3.2s
tests/buffer/task_storage_test.py::TaskStorageTest::test_read_task_4_file	✅	52ms
tests/buffer/task_storage_test.py::TaskStorageTest::test_read_task_5_sql	✅	3.5s
tests/cli/launcher_test.py::TestLauncherMain::test_debug_mode	✅	45.9s
tests/cli/launcher_test.py::TestLauncherMain::test_main_run_command	✅	7.2s
tests/cli/launcher_test.py::TestLauncherMain::test_main_run_in_dlc	✅	1.4s
tests/cli/launcher_test.py::TestLauncherMain::test_main_studio_command	✅	346ms
tests/cli/launcher_test.py::TestLauncherMain::test_multi_stage_run	✅	1.7s
tests/common/config_test.py::TestConfig::test_all_examples_are_valid	✅	34.5s
tests/common/config_test.py::TestConfig::test_chat_template_path	✅	97ms
tests/common/config_test.py::TestConfig::test_config_flatten	✅	42ms
tests/common/config_test.py::TestConfig::test_continue_from_checkpoint_is_valid	✅	198ms
tests/common/config_test.py::TestConfig::test_default_workflow	✅	94ms
tests/common/config_test.py::TestConfig::test_load_default_config	✅	3.5s
tests/common/config_test.py::TestConfig::test_max_token_len_per_gpu_set_correctly	✅	95ms
tests/common/config_test.py::TestConfig::test_optimizer_config_propagation	✅	96ms
tests/common/config_test.py::TestConfig::test_update_config_from_ray_cluster	✅	360ms
tests/common/experience_test.py::TestEID::test_eid_properties	✅	1ms
tests/common/experience_test.py::TestExperience::test_action_mask_and_logprobs_type	✅	1ms
tests/common/experience_test.py::TestExperience::test_assertions	✅	1ms
tests/common/experience_test.py::TestExperience::test_dpo_experience	✅	1ms
tests/common/experience_test.py::TestExperience::test_gather	✅	1ms
tests/common/experience_test.py::TestExperience::test_gather_with_token_level_reward	✅	1ms
tests/common/experience_test.py::TestExperience::test_hf_datasets_conversion	✅	15ms
tests/common/experience_test.py::TestExperience::test_multi_turn_experience	✅	1ms
tests/common/experience_test.py::TestExperience::test_serialize_deserialize	✅	1ms
tests/common/experience_test.py::TestExperience::test_single_turn_experience	✅	1ms
tests/common/experience_test.py::TestExperience::test_to_dict	✅	1ms
tests/common/experience_test.py::TestExperienceConversion::test_batch_conversion	✅	1ms
tests/common/experience_test.py::TestExperienceConversion::test_dpo_experience_batch_conversion	✅	1ms
tests/common/experience_test.py::TestExperienceConversion::test_experience_model_experience_conversion	✅	1ms
tests/common/experience_test.py::TestExperienceConversion::test_gather_experiences_with_custom_fields	✅	1ms
tests/common/experience_test.py::TestExperienceConversion::test_multiturn_experience_batch_converstion	✅	1ms
tests/common/vllm_test.py::ModelWrapperTest_0::test_generate	✅	54.8s
tests/common/vllm_test.py::ModelWrapperTest_1::test_generate	✅	30.9s
tests/common/vllm_test.py::ModelWrapperTest_2::test_generate	✅	41.5s
tests/common/vllm_test.py::TestModelLen_0::test_model_len	✅	16.1s
tests/common/vllm_test.py::TestModelLen_1::test_model_len	✅	15.5s
tests/common/vllm_test.py::TestModelLen_2::test_model_len	✅	15.4s
tests/common/vllm_test.py::TestModelLenWithoutPromptTruncation::test_model_len	✅	16.2s
tests/common/vllm_test.py::TestAPIServer::test_api	✅	20.6s
tests/common/vllm_test.py::TestLogprobs::test_logprobs_api	✅	15.9s
tests/common/vllm_test.py::TestAsyncAPIServer::test_api_async	✅	21.0s
tests/common/vllm_test.py::TestTokenizer::test_action_mask	✅	242ms
tests/common/vllm_test.py::TestTokenizer::test_action_mask_with_tools	✅	231ms
tests/common/vllm_test.py::TestAPIServerToolCall_0_deepseek_r1::test_api_tool_calls	✅	17.2s
tests/common/vllm_test.py::TestAPIServerToolCall_1::test_api_tool_calls	✅	15.4s
tests/common/vllm_test.py::TestSuperLongGeneration::test_generate	✅	2m 19s
tests/explorer/explorer_test.py::TestExplorerCountdownEval::test_explorer	✅	1m 3s
tests/explorer/explorer_test.py::TestExplorerGSM8KRULERNoEval::test_explorer	✅	1m 38s
tests/explorer/explorer_test.py::TestExplorerGSM8k::test_explorer	✅	3m 31s
tests/explorer/explorer_test.py::ServeTest::test_serve	⏭️	811ms
tests/explorer/scheduler_test.py::SchedulerTest::test_async_workflow	✅	9.1s
tests/explorer/scheduler_test.py::SchedulerTest::test_concurrent_operations	✅	8.6s
tests/explorer/scheduler_test.py::SchedulerTest::test_dynamic_timeout	✅	16.9s
tests/explorer/scheduler_test.py::SchedulerTest::test_get_results	✅	24.2s
tests/explorer/scheduler_test.py::SchedulerTest::test_metric_calculation_with_non_repeatable_workflow_0	✅	9.1s
tests/explorer/scheduler_test.py::SchedulerTest::test_metric_calculation_with_non_repeatable_workflow_1	✅	8.7s
tests/explorer/scheduler_test.py::SchedulerTest::test_metric_calculation_with_repeatable_workflow_0	✅	8.9s
tests/explorer/scheduler_test.py::SchedulerTest::test_metric_calculation_with_repeatable_workflow_1	✅	8.7s
tests/explorer/scheduler_test.py::SchedulerTest::test_multi_step_execution	✅	9.1s
tests/explorer/scheduler_test.py::SchedulerTest::test_non_repeatable_workflow	✅	9.2s
tests/explorer/scheduler_test.py::SchedulerTest::test_over_rollout_min_wait	✅	12.8s
tests/explorer/scheduler_test.py::SchedulerTest::test_scheduler_all_methods	✅	18.8s
tests/explorer/scheduler_test.py::SchedulerTest::test_scheduler_restart_after_stop	✅	16.9s
tests/explorer/scheduler_test.py::SchedulerTest::test_split_tasks	✅	12.1s
tests/explorer/scheduler_test.py::SchedulerTest::test_stepwise_experience_eid	✅	29.0s
tests/explorer/scheduler_test.py::SchedulerTest::test_wait_all	✅	11.7s
tests/explorer/scheduler_test.py::SchedulerTest::test_wait_all_timeout_with_multi_batch	✅	18.0s
tests/explorer/scheduler_test.py::TestRunnerStateCollection::test_runner_state_collection	✅	13.8s
tests/explorer/step_wise_workflow_test.py::WorkflowTest::test_reward_propagation_workflow_0	✅	2ms
tests/explorer/step_wise_workflow_test.py::WorkflowTest::test_reward_propagation_workflow_1	✅	602ms
tests/explorer/step_wise_workflow_test.py::WorkflowTest::test_step_wise_reward_workflow_0	✅	1ms
tests/explorer/step_wise_workflow_test.py::WorkflowTest::test_step_wise_reward_workflow_1	✅	1.0s
tests/explorer/step_wise_workflow_test.py::WorkflowTest::test_workflows_raise_error	✅	1ms
tests/explorer/step_wise_workflow_test.py::WorkflowTest::test_workflows_stop_at_max_env_steps	✅	1.0s
tests/explorer/workflow_test.py::WorkflowTest::test_gsm8k_workflow	✅	16ms
tests/explorer/workflow_test.py::WorkflowTest::test_math_boxed_workflow	✅	25ms
tests/explorer/workflow_test.py::WorkflowTest::test_math_complex_workflow	✅	746ms
tests/explorer/workflow_test.py::WorkflowTest::test_math_eval_workflow	✅	4ms
tests/explorer/workflow_test.py::WorkflowTest::test_math_fraction_workflow	✅	17ms
tests/explorer/workflow_test.py::WorkflowTest::test_math_workflow	✅	10ms
tests/explorer/workflow_test.py::WorkflowTest::test_rm_gallery_workflow	✅	108ms
tests/explorer/workflow_test.py::WorkflowTest::test_workflow_repeatable_0	✅	2ms
tests/explorer/workflow_test.py::WorkflowTest::test_workflow_repeatable_1	✅	101ms
tests/explorer/workflow_test.py::WorkflowTest::test_workflow_resettable_0	✅	1ms
tests/explorer/workflow_test.py::WorkflowTest::test_workflow_resettable_1	✅	201ms
tests/explorer/workflow_test.py::MultiTurnWorkflowTest_0::test_multi_turn_workflow	✅	14.5s
tests/explorer/workflow_test.py::MultiTurnWorkflowTest_1::test_multi_turn_workflow	✅	14.5s
tests/explorer/workflow_test.py::TestWorkflowStateRecording::test_workflow_state_recording	✅	4.0s
tests/explorer/workflow_test.py::TestAgentScopeWorkflowAdapter::test_adapter	⏭️	2ms
tests/explorer/workflow_test.py::TestWorkflowRunner::test_workflow_runner	✅	301ms
tests/explorer/workflow_test.py::TestWorkflowRunner::test_workflow_runner_get_state	✅	8.1s
tests/explorer/workflow_test.py::TestWorkflowRunner::test_workflow_with_openai	✅	17.0s
tests/manager/synchronizer_test.py::TestSynchronizerExit::test_synchronizer	✅	41.8s
tests/manager/synchronizer_test.py::TestStateDictBasedSynchronizer_0::test_synchronizer	✅	1m 29s
tests/manager/synchronizer_test.py::TestStateDictBasedSynchronizer_1::test_synchronizer	✅	1m 26s
tests/manager/synchronizer_test.py::TestStateDictBasedSynchronizer_2::test_synchronizer	✅	2m 19s
tests/manager/synchronizer_test.py::TestStateDictBasedSynchronizer_3::test_synchronizer	✅	2m 12s
tests/manager/synchronizer_test.py::TestNCCLBasedSynchronizer_0::test_synchronizer	✅	1m 23s
tests/manager/synchronizer_test.py::TestNCCLBasedSynchronizer_1::test_synchronizer	✅	1m 24s
tests/service/data_juicer_test.py::TestDataJuicer::test_config	✅	1.7s
tests/service/data_juicer_test.py::TestDataJuicer::test_server_start	✅	21.9s
tests/service/data_juicer_test.py::TestDataJuicerExperiencePipeline::test_data_juicer_operators	✅	27.0s
tests/service/data_juicer_test.py::TestDataJuicerTaskPipeline::test_data_juicer_task_pipeline	✅	14.2s
tests/trainer/trainer_test.py::TestTrainerCountdown_0_fsdp::test_trainer	✅	2m 55s
tests/trainer/trainer_test.py::TestTrainerCountdown_1_megatron::test_trainer	✅	4m 28s
tests/trainer/trainer_test.py::TestStepAheadAsyncRL::test_trainer	✅	1m 9s
tests/trainer/trainer_test.py::TestTrainerGSM8K_0_fsdp::test_trainer	✅	1m 7s
tests/trainer/trainer_test.py::TestTrainerGSM8K_1_fsdp2::test_trainer	✅	1m 5s
tests/trainer/trainer_test.py::TestTrainerGSM8K_2_fsdp::test_trainer	✅	1m 8s
tests/trainer/trainer_test.py::TestTrainerGSM8K_3_fsdp2::test_trainer	✅	1m 19s
tests/trainer/trainer_test.py::TestTrainerSFTWarmupGSM8K::test_trainer	✅	2m 6s
tests/trainer/trainer_test.py::TestTrainerDPO::test_trainer	✅	49.5s
tests/trainer/trainer_test.py::TestTrainerSFT::test_trainer	✅	46.7s
tests/trainer/trainer_test.py::TestTrainerToolsSFT::test_trainer_tools	✅	46.9s
tests/trainer/trainer_test.py::TestFullyAsyncMode_0_fsdp::test_fully_async_mode	✅	1m 37s
tests/trainer/trainer_test.py::TestFullyAsyncMode_1_fsdp::test_fully_async_mode	✅	1m 33s
tests/trainer/trainer_test.py::TestFullyAsyncMode_2_megatron::test_fully_async_mode	✅	2m 18s
tests/trainer/trainer_test.py::TestTrainerCheckpointSave_0_fsdp::test_trainer	✅	1m 59s
tests/trainer/trainer_test.py::TestTrainerCheckpointSave_1_megatron::test_trainer	✅	4m 12s
tests/trainer/trainer_test.py::TestTrainerMIX::test_trainer	✅	2m 5s
tests/trainer/trainer_test.py::TestMultiModalGRPO::test_trainer	⏭️	809ms
tests/trainer/trainer_test.py::TestMultiModalSFT::test_trainer	⏭️	808ms
tests/trainer/trainer_test.py::TestTrainerLoRA::test_trainer	✅	3m 16s
tests/trainer/trainer_test.py::TestOverRollout::test_trainer	✅	1m 3s
tests/trainer/trainer_test.py::TestTrainerPromptTruncation::test_trainer	✅	54.6s
tests/utils/eval_utils_test.py::TestComputeScore::test_both_boxed_and_equivalent	✅	15ms
tests/utils/eval_utils_test.py::TestComputeScore::test_both_boxed_and_not_equivalent	✅	1ms
tests/utils/eval_utils_test.py::TestComputeScore::test_empty_ground_truth	✅	2ms
tests/utils/eval_utils_test.py::TestComputeScore::test_empty_solution_string	✅	1ms
tests/utils/eval_utils_test.py::TestComputeScore::test_multiple_boxed_answers_in_solution	✅	2ms
tests/utils/eval_utils_test.py::TestComputeScore::test_solution_boxed_truth_raw_and_equivalent	✅	1ms
tests/utils/eval_utils_test.py::TestComputeScore::test_solution_boxed_truth_raw_and_not_equivalent	✅	1ms
tests/utils/eval_utils_test.py::TestComputeScore::test_solution_not_boxed	✅	1ms
tests/utils/eval_utils_test.py::TestComputeScore::test_solution_raw_and_ground_truth_boxed_equivalent	✅	1ms
tests/utils/eval_utils_test.py::TestMathEvalUtils::test_extract_answer	✅	4ms
tests/utils/eval_utils_test.py::TestMathEvalUtils::test_verify_math_answer	✅	74ms
tests/utils/eval_utils_test.py::TestEvalUtils::test_is_equiv	✅	6ms
tests/utils/log_test.py::LogTest::test_actor_log	✅	2.2s
tests/utils/log_test.py::LogTest::test_group_by_node	✅	2.1s
tests/utils/log_test.py::LogTest::test_no_actor_log	✅	904ms
tests/utils/plugin_test.py::TestPluginLoader::test_load_plugins_local_0__workspace_tests_utils_plugins	✅	98ms
tests/utils/plugin_test.py::TestPluginLoader::test_load_plugins_local_1_tests_utils_plugins	✅	96ms
tests/utils/plugin_test.py::TestPluginLoader::test_load_plugins_remote_0__workspace_tests_utils_plugins	✅	10.6s
tests/utils/plugin_test.py::TestPluginLoader::test_load_plugins_remote_1_tests_utils_plugins	✅	10.5s
tests/utils/plugin_test.py::TestPluginLoader::test_passing_custom_class_0__workspace_tests_utils_plugins	✅	6.1s
tests/utils/plugin_test.py::TestPluginLoader::test_passing_custom_class_1_tests_utils_plugins	✅	5.9s
tests/utils/registry_test.py::TestRegistryWithRay::test_dynamic_import	✅	5.5s
tests/utils/registry_test.py::TestRegistry::test_algorithm_registry_mapping	✅	2ms
tests/utils/registry_test.py::TestRegistry::test_buffer_module_registry_mapping	✅	1ms
tests/utils/registry_test.py::TestRegistry::test_common_module_registry_mapping	✅	44ms
tests/utils/registry_test.py::TestRegistry::test_register_module	✅	1ms
tests/utils/registry_test.py::TestRegistry::test_utils_module_registry_mapping	✅	1ms

Github Test Reporter by CTRF 💚

trinity/buffer/storage/queue.py

chenyushuo added 2 commits December 16, 2025 19:54

add staleness control

ba74224

pre commit fix

08c5144

gemini-code-assist bot reviewed Dec 16, 2025

View reviewed changes

trinity/buffer/reader/file_reader.py Show resolved Hide resolved

trinity/buffer/storage/sql.py Outdated Show resolved Hide resolved

tests/buffer/sample_strategy_test.py Outdated Show resolved Hide resolved

trinity/algorithm/sample_strategy/sample_strategy.py Outdated Show resolved Hide resolved

chenyushuo added 2 commits December 18, 2025 11:02

fix unittest and apply reviews

2926a94

Merge branch 'main' of github.com:modelscope/Trinity-RFT into dev/add…

1646a31

…_staleness_control

fix merge

de0e39e

fix unittest

4aa826b

pan-x-c reviewed Dec 18, 2025

View reviewed changes

trinity/buffer/storage/queue.py Outdated Show resolved Hide resolved

chenyushuo added 2 commits December 18, 2025 14:36

apply reviews

d71d3c8

apply reviews

f6dd28e

pan-x-c approved these changes Dec 18, 2025

View reviewed changes

pan-x-c merged commit e412fbe into modelscope:main Dec 18, 2025
2 checks passed

pan-x-c mentioned this pull request Dec 25, 2025

rollout和actor中的step的关系和区别？ #452

Open

Add staleness control #445

Add staleness control #445

Uh oh!

Conversation

chenyushuo commented Dec 16, 2025 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Description

Checklist

Uh oh!

gemini-code-assist bot commented Dec 16, 2025

Summary of Changes

Highlights

Footnotes

Uh oh!

chenyushuo commented Dec 16, 2025

Uh oh!

gemini-code-assist bot left a comment

Choose a reason for hiding this comment

Code Review

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

github-actions bot commented Dec 16, 2025

Summary

Failed Tests

Skipped

Tests

Uh oh!

chenyushuo commented Dec 18, 2025

Uh oh!

github-actions bot commented Dec 18, 2025

Summary

Tests

Uh oh!

chenyushuo commented Dec 18, 2025

Uh oh!

github-actions bot commented Dec 18, 2025

Summary

Tests

Uh oh!

chenyushuo commented Dec 18, 2025

Uh oh!

github-actions bot commented Dec 18, 2025

Summary

Skipped

Tests

Uh oh!

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

chenyushuo commented Dec 16, 2025 •

edited

Loading