当前位置：首页 > news >正文

宝塔怎么做第二个网站网站内容设计遵循的原则有

news 2026/7/26 20:49:12

宝塔怎么做第二个网站,网站内容设计遵循的原则有,常熟东南开发区人才网,建设网站的功能及目的是什么虽然最近我花了很多时间在大型语言模型 (LLM) 上进行实验#xff0c;但我对计算机视觉的热情始终未减。因此#xff0c;当我有机会将两者融合在一起时#xff0c;我迫不及待地想要立即开始。在 Goodreads 上扫描书籍封面并将其标记为已读一直感觉有点神奇#xff0c;我很兴…虽然最近我花了很多时间在大型语言模型 (LLM) 上进行实验但我对计算机视觉的热情始终未减。因此当我有机会将两者融合在一起时我迫不及待地想要立即开始。在 Goodreads 上扫描书籍封面并将其标记为已读一直感觉有点神奇我很兴奋自己尝试一下。将自定义训练的 YOLOv10 模型与 OCR 技术相结合可显著提高准确率但真正的转变发生在集成 LLM如 Llama 3.1时——它将杂乱的 OCR 输出转换为可用于实际应用的精致文本。 NSDT工具推荐 Three.js AI纹理开发包 - YOLO合成数据生成器 - GLTF/GLB在线编辑 - 3D模型格式在线转换 - 可编程3D场景编辑器 - REVIT导出3D模型插件 - 3D模型语义搜索引擎 - AI模型在线查看 - Three.js虚拟轴心开发包 - 3D模型在线减面 - STL模型在线切割 1、为什么需要 YOLO 、Ollama 和OCR 传统的 OCR光学字符识别方法非常适合从简单图像中提取文本但当文本与其他视觉元素交织在一起时通常会遇到困难。通过首先使用自定义 YOLO 模型检测文本区域等对象我们可以隔离这些区域以进行 OCR从而显著减少噪音并提高准确率。让我们通过在没有 YOLO 的图像上运行基本的 OCR 示例来证明这一点以强调单独使用 OCR 的挑战 import easyocr import cv2 # Initialize EasyOCR reader easyocr.Reader([en]) # Load the image image cv2.imread(book.jpg) # Run OCR directly results reader.readtext(image) # Display results for (bbox, text, prob) in results:print(fDetected Text: {text} (Probability: {prob})) 输出结果如下 THE 0 R |G |NAL B E STSELLE R THE SECRET HISTORY DONNA TARTT Haunting, compelling and brilliant The Times 虽然这种方法适用于较简单的图像但当存在噪声或复杂的视觉模式时你会注意到错误会增加。这时 YOLO 模型可以发挥巨大作用。 2、使用自定义数据集训练 Yolov10 使用对象检测增强 OCR 的第一步是在数据集上训练自定义 YOLO 模型。 YOLOYou Only Look Once是一种功能强大的实时对象检测模型它将图像划分为网格使其能够在一次前向传递中识别多个对象。这种方法非常适合检测图像中的文本尤其是当你想要通过隔离特定区域来改善 OCR 结果时。我们将使用此处链接的预标注书籍封面数据集并在其上训练 YOLOv10 模型。YOLOv10 针对较小的物体进行了优化使其非常适合在视频或扫描文档等具有挑战性的环境中检测文本。 from ultralytics import YOLOmodel YOLO(yolov10n.pt) # Train the model model.train(datadatasets/data.yaml, epochs50, imgsz640) 就我而言在 Google Colab 上训练此模型大约需要 6 个小时共 50 个 epoch。你可以调整 epoch 数量、数据集大小或超参数等参数来提高模型的性能和准确性。 2、在视频上运行自定义模型以获取边界框 YOLO 模型训练完成后您可以将其应用于视频以检测文本区域周围的边界框。这些边界框隔离了感兴趣的区域确保 OCR 过程更加清晰 import cv2 # Open video file video_path books.mov cap cv2.VideoCapture(video_path) # Load YOLO model model YOLO(model.pt) # Function for object detection and drawing bounding boxes def predict_and_detect(model, frame, conf0.5):results model.predict(frame, confconf)for result in results:for box in result.boxes:# Draw bounding boxx1, y1, x2, y2 map(int, box.xyxy[0].tolist())cv2.rectangle(frame, (x1, y1), (x2, y2), (255, 0, 0), 2)return frame, results # Process video frames while cap.isOpened():ret, frame cap.read()if not ret:break# Run object detectionprocessed_frame, results predict_and_detect(model, frame)# Show video with bounding boxescv2.imshow(YOLO OCR Detection, processed_frame)if cv2.waitKey(1) 0xFF ord(q):break # Release video cap.release() cv2.destroyAllWindows() 该代码实时处理视频在检测到的文本周围绘制边界框并为下一步 OCR 准备这些区域。 3、在边界框上运行 OCR 现在我们已经使用 YOLO 隔离了文本区域我们可以在这些特定区域内应用 OCR与在整个图像上运行 OCR 相比这大大提高了准确性 import easyocr # Initialize EasyOCR reader easyocr.Reader([en]) # Function to crop frames and perform OCR def run_ocr_on_boxes(frame, boxes):ocr_results []for box in boxes:x1, y1, x2, y2 map(int, box.xyxy[0].tolist())cropped_frame frame[y1:y2, x1:x2]ocr_result reader.readtext(cropped_frame)ocr_results.append(ocr_result)return ocr_results # Perform OCR on detected bounding boxes for result in results:ocr_results run_ocr_on_boxes(frame, result.boxes)# Extract and display the text from OCR resultsextracted_text [detection[1] for ocr in ocr_results for detection in ocr]print(fExtracted Text: {, .join(extracted_text)}) 输出结果如下 THE, SECRET, HISTORY, DONNA, TARTT 结果明显改善因为 OCR 引擎现在只处理明确标识为包含文本的区域从而降低了因不相关图像元素而产生误解的风险。 4、使用 Ollama 改进文本使用 easyocr 提取文本后Ollama 的 Llama 3.1 可以进一步完善通常不完美且混乱的结果。OCR 功能强大但它仍然可能误解文本或无序返回数据尤其是书名或作者姓名。 Ollama 的 Llama 3.1 介入清理输出从原始 OCR 结果中提供结构化、连贯的文本。通过向 Llama 3.1 提供识别和组织文本的具体说明我们可以将不完美的 OCR 输出转换为格式整齐的书名和作者姓名。 import ollama # Construct a prompt to clean up the OCR output prompt f - Below is a text extracted from an OCR. The text contains mentions of famous books and their corresponding authors. - Some words may be slightly misspelled or out of order. - Your task is to identify the book titles and corresponding authors from the text. - Output the text in the format: Name of the book : Name of the author. - Do not generate any other text except the book title and the author. TEXT: {output_text}# Use Ollama to clean and structure the OCR output response ollama.chat(modelllama3,messages[{role: user, content: prompt}] ) # Extract cleaned text cleaned_text response[message][content].strip() print(cleaned_text) 输出结果如下 The Secret History : Donna Tartt 一旦 Llama 3.1 清理了文本经过润色的输出就可以存储在数据库中或用于各种实际应用例如数字图书馆或书店自动对书名进行分类并在作者旁边显示书名。档案系统将扫描的书籍封面或文档转换为可搜索的数字记录。自动元数据生成根据提取的信息为图像、PDF 或其他数字资产生成元数据。数据库输入将清理后的文本直接插入数据库确保大型系统的数据结构化和一致性。通过结合对象检测、OCR 和 LLM你可以解锁强大的管道以实现更结构化的数据处理非常适合需要高精度水平的应用程序。 5、结束语通过将定制训练的 YOLOv10 模型与 EasyOCR 相结合并使用 Ollama 的 Llama 3.1 增强结果你可以显著改善文本识别工作流程。无论是在检测复杂图像或视频中的文本、清理 OCR 结果还是使输出更易于使用此管道都可以实现实时、高度准确的文本提取和细化。完整的源代码和 Jupyter Notebook 可在 GitHub 存储库中找到。原文链接YOLO和LLM增强的OCR - BimAnt

查看全文

http://www.w-s-a.com/news/499583/