コンピュータビジョンの改善に向けたツール開発(Better tools to improve ‘computer vision’

2025-10-27 ワシントン大学セントルイス校

ワシントン大学セントルイス校(WashU)マッケルビー工学部のネイサン・ジェイコブズ教授の研究チームは、コンピュータビジョンの精度向上に資する2種の新ツールを国際会議ICCVで発表した。1つは博士課程スリクマル・サストリ氏と開発した「分類階層ベース画像識別ツール」で、野生動物画像から属・種レベルまで正確に同定でき、生態研究への応用が期待される。もう1つは博士課程フェン・チャオ氏との共同研究による「ステレオ深度知覚改良技術」で、自動運転車などの3D視覚システムにおける距離推定精度を向上させる。これらは機械が現実世界をより精密に「認識」するための基盤技術であり、環境モニタリングからロボティクス、交通安全分野まで幅広い応用が見込まれる。

<関連情報>

自然界画像のためのグローバルおよびローカル含意学習 Global and Local Entailment Learning for Natural World Imagery

Srikumar Sastry, Aayush Dhakal, Eric Xing, Subash Khanal, Nathan Jacobs
International Conference on Computer Vision  Oct 19-23, 2025

コンピュータビジョンの改善に向けたツール開発(Better tools to improve ‘computer vision’

Abstract

Learning the hierarchical structure of data in vision-language models is a significant challenge. Previous works have attempted to address this challenge by employing entailment learning. However, these approaches fail to model the transitive nature of entailment explicitly, which establishes the relationship between order and semantics within a representation space. In this work, we introduce Radial Cross-Modal Embeddings (RCME), a framework that enables the explicit modeling of transitivity-enforced entailment. Our proposed framework optimizes for the partial order of concepts within vision-language models. By leveraging our framework, we develop a hierarchical vision-language foundation model capable of representing the hierarchy in the Tree of Life. Our experiments on hierarchical species classification and hierarchical retrieval tasks demonstrate the enhanced performance of our models compared to the existing state-of-the-art models.

1603情報システム・データ工学
ad
ad
Follow
ad
タイトルとURLをコピーしました