Add modules_to_not_convert in quantized model #3053

jiqing-feng · 2025-02-24T08:33:51Z

Fix modules_to_not_convert to skip the unquantized linear. As some models have unquantized modules, we should skip these modules in quantization.

This PR could enable qwen2_vl-awq model.
Without this change, the error will be:

Traceback (most recent call last):
  File "/opt/conda/bin/text-generation-server", line 10, in <module>
    sys.exit(app())
  File "/opt/conda/lib/python3.11/site-packages/typer/main.py", line 323, in __call__
    return get_command(self)(*args, **kwargs)
  File "/opt/conda/lib/python3.11/site-packages/click/core.py", line 1161, in __call__
    return self.main(*args, **kwargs)
  File "/opt/conda/lib/python3.11/site-packages/typer/core.py", line 743, in main
    return _main(
  File "/opt/conda/lib/python3.11/site-packages/typer/core.py", line 198, in _main
    rv = self.invoke(ctx)
  File "/opt/conda/lib/python3.11/site-packages/click/core.py", line 1697, in invoke
    return _process_result(sub_ctx.command.invoke(sub_ctx))
  File "/opt/conda/lib/python3.11/site-packages/click/core.py", line 1443, in invoke
    return ctx.invoke(self.callback, **ctx.params)
  File "/opt/conda/lib/python3.11/site-packages/click/core.py", line 788, in invoke
    return __callback(*args, **kwargs)
  File "/opt/conda/lib/python3.11/site-packages/typer/main.py", line 698, in wrapper
    return callback(**use_params)
  File "/usr/src/server/text_generation_server/cli.py", line 119, in serve
    server.serve(
  File "/usr/src/server/text_generation_server/server.py", line 316, in serve
    asyncio.run(
  File "/opt/conda/lib/python3.11/asyncio/runners.py", line 190, in run
    return runner.run(main)
  File "/opt/conda/lib/python3.11/asyncio/runners.py", line 118, in run
    return self._loop.run_until_complete(task)
  File "/opt/conda/lib/python3.11/asyncio/base_events.py", line 641, in run_until_complete
    self.run_forever()
  File "/opt/conda/lib/python3.11/asyncio/base_events.py", line 608, in run_forever
    self._run_once()
  File "/opt/conda/lib/python3.11/asyncio/base_events.py", line 1936, in _run_once
    handle._run()
  File "/opt/conda/lib/python3.11/asyncio/events.py", line 84, in _run
    self._context.run(self._callback, *self._args)
> File "/usr/src/server/text_generation_server/server.py", line 268, in serve_inner
    model = get_model_with_lora_adapters(
  File "/usr/src/server/text_generation_server/models/__init__.py", line 1592, in get_model_with_lora_adapters
    model = get_model(
  File "/usr/src/server/text_generation_server/models/__init__.py", line 1388, in get_model
    return VlmCausalLM(
  File "/usr/src/server/text_generation_server/models/vlm_causal_lm.py", line 354, in __init__
    super().__init__(
  File "/usr/src/server/text_generation_server/models/flash_causal_lm.py", line 1289, in __init__
    weights_loader = get_loader(quantize, model_id, revision)
  File "/usr/src/server/text_generation_server/utils/quantization.py", line 159, in get_loader
    return GPTQWeightsLoader(
TypeError: GPTQWeightsLoader.__init__() got an unexpected keyword argument 'modules_to_not_convert'
2025-02-25T13:01:44.894419Z ERROR shard-manager: text_generation_launcher: Shard complete standard error output:

Signed-off-by: jiqing-feng <jiqing.feng@intel.com>

jiqing-feng · 2025-02-25T05:15:19Z

Hi @Narsil , could you please help to trigger the tests and review this PR? Thanks!

Signed-off-by: jiqing-feng <jiqing.feng@intel.com>

danieldk

Thanks for adding support for this. I added some small comments.

server/text_generation_server/layers/gptq/__init__.py

jiqing-feng · 2025-02-28T02:45:29Z

Hi @danieldk , I have fixed your comments, please review the new changes. Thanks!

Signed-off-by: jiqing-feng <jiqing.feng@intel.com>

jiqing-feng added 3 commits February 24, 2025 16:11

fix modules_to_not_convert

0bad926

Signed-off-by: jiqing-feng <jiqing.feng@intel.com>

fix format

a332862

Signed-off-by: jiqing-feng <jiqing.feng@intel.com>

fix tp quant skip

bc4eb25

Signed-off-by: jiqing-feng <jiqing.feng@intel.com>

revert unquantized changes

b7bdbbd

Signed-off-by: jiqing-feng <jiqing.feng@intel.com>

sywangyi approved these changes Feb 27, 2025

View reviewed changes

danieldk reviewed Feb 27, 2025

View reviewed changes

server/text_generation_server/layers/gptq/__init__.py Outdated Show resolved Hide resolved

server/text_generation_server/layers/gptq/__init__.py Outdated Show resolved Hide resolved

use DefaultWeightsLoader in skip modules

e66bbff

Signed-off-by: jiqing-feng <jiqing.feng@intel.com>

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Add modules_to_not_convert in quantized model #3053

Add modules_to_not_convert in quantized model #3053

jiqing-feng commented Feb 24, 2025 •

edited

Loading

jiqing-feng commented Feb 25, 2025

danieldk left a comment

jiqing-feng commented Feb 28, 2025

Add modules_to_not_convert in quantized model #3053

Are you sure you want to change the base?

Add modules_to_not_convert in quantized model #3053

Conversation

jiqing-feng commented Feb 24, 2025 • edited Loading

jiqing-feng commented Feb 25, 2025

danieldk left a comment

Choose a reason for hiding this comment

jiqing-feng commented Feb 28, 2025

jiqing-feng commented Feb 24, 2025 •

edited

Loading