一、开源库与开发框架
1.通用框架
(1)OpenCV
特点:最常用的跨平台计算机视觉库,支持图像处理、特征提取、目标检测等。
适用场景:快速原型开发、工业检测、AR应用。
语言:C++/Python/Java。
(2)TensorFlow/Keras
特点:谷歌开发的深度学习框架,集成CV模型(如EfficientNet、Mask R-CNN)。
适用场景:训练自定义视觉模型。
工具扩展:TensorFlow Lite(移动端部署)、TFX(生产级流水线)。
(3)PyTorch
特点:研究首选框架,动态计算图,社区活跃(如Detectron2目标检测库)。
适用场景:学术研究、复杂模型实验(如3D视觉)。
2.专用工具包
(1)MMCV(OpenMMLab)
特点:模块化设计,支持检测、分割、动作识别等任务。
子项目:MMDetection(检测)、MMSegmentation(分割)。
(2)Hugging Face Transformers
特点:集成视觉-语言多模态模型(如ViT、CLIP)。
适用场景:图像分类、图文匹配。
二、数据标注工具
1. LabelImg
功能:矩形框标注(支持PASCAL VOC/YOLO格式)。
适用场景:目标检测数据标注。
2. LabelMe
功能:多边形/语义分割标注(JSON格式输出)。
适用场景:分割任务(如医学图像)。
3. CVAT(Computer Vision Annotation Tool)
功能:企业级标注工具,支持视频标注、团队协作。
部署:支持Docker本地化部署。
三、预训练模型与平台
1. TorchVision/PyTorch Hub
资源:提供ResNet、YOLOv5等预训练模型一键调用。
2. TensorFlow Hub
资源:包含EfficientNet、MobileNet等模型,支持迁移学习。
3. Roboflow
特点:一站式数据管理平台,支持数据增强、模型训练与部署。
适用场景:中小团队快速迭代视觉项目。
四、部署与优化工具
1. ONNX Runtime
功能:跨框架模型转换与加速(如PyTorch→ONNX→TensorRT)。
2. TensorRT(NVIDIA)
功能:高性能推理优化,支持INT8量化。
适用硬件:NVIDIA GPU。
3. OpenVINO(Intel)
功能:优化模型在Intel CPU/GPU上的推理速度。
适用场景:边缘设备(如工业摄像头)。
五、选择建议
初学者/快速验证:OpenCV + Roboflow + YOLOv8(PyTorch)。
工业场景:Halcon(高精度)或 OpenVINO(边缘部署)。
学术研究:PyTorch + Detectron2 + W&B。