text-generation-webui/modules/bot_picture.py

import torch
from transformers import BlipForConditionalGeneration, BlipProcessor

processor = BlipProcessor.from_pretrained("Salesforce/blip-image-captioning-base")
model = BlipForConditionalGeneration.from_pretrained("Salesforce/blip-image-captioning-base", torch_dtype=torch.float32).to("cpu")

def caption_image(raw_image):
    inputs = processor(raw_image.convert('RGB'), return_tensors="pt").to("cpu", torch.float32)
    out = model.generate(**inputs, max_new_tokens=100)
    return processor.decode(out[0], skip_special_tokens=True)
Use BLIP directly + some simplifications 2023-02-14 21:55:46 -05:00			`import torch`
Improve the imports 2023-02-23 12:41:42 -05:00			`from transformers import BlipForConditionalGeneration, BlipProcessor`
Use BLIP to send a picture to model 2023-02-14 18:38:21 -05:00
Use BLIP directly + some simplifications 2023-02-14 21:55:46 -05:00			`processor = BlipProcessor.from_pretrained("Salesforce/blip-image-captioning-base")`
Move BLIP to the CPU It's just as fast 2023-02-14 22:03:19 -05:00			`model = BlipForConditionalGeneration.from_pretrained("Salesforce/blip-image-captioning-base", torch_dtype=torch.float32).to("cpu")`
Use BLIP directly + some simplifications 2023-02-14 21:55:46 -05:00
			`def caption_image(raw_image):`
Move BLIP to the CPU It's just as fast 2023-02-14 22:03:19 -05:00			`inputs = processor(raw_image.convert('RGB'), return_tensors="pt").to("cpu", torch.float32)`
Use BLIP directly + some simplifications 2023-02-14 21:55:46 -05:00			`out = model.generate(**inputs, max_new_tokens=100)`
			`return processor.decode(out[0], skip_special_tokens=True)`