V2PE: Improving Multimodal Long-Context Capability of Vision-Language Models with Variable Visual Position Encoding

There are no files associated with this item.

Citations:
Appears in Collections:
- Electrical & Electronic Engineering: Conference papers

Title	V2PE: Improving Multimodal Long-Context Capability of Vision-Language Models with Variable Visual Position Encoding
Authors	Ge, Junqi Chen, Ziyi Lin, Jintao Zhu, Jinguo Liu, Xihui Dai, Jifeng Zhu, Xizhou
Issue Date	23-Oct-2025
Persistent Identifier	http://hdl.handle.net/10722/359192

DC Field	Value	Language
dc.contributor.author	Ge, Junqi	-
dc.contributor.author	Chen, Ziyi	-
dc.contributor.author	Lin, Jintao	-
dc.contributor.author	Zhu, Jinguo	-
dc.contributor.author	Liu, Xihui	-
dc.contributor.author	Dai, Jifeng	-
dc.contributor.author	Zhu, Xizhou	-
dc.date.accessioned	2025-08-23T00:30:32Z	-
dc.date.available	2025-08-23T00:30:32Z	-
dc.date.issued	2025-10-23	-
dc.identifier.uri	http://hdl.handle.net/10722/359192	-
dc.language	eng	-
dc.relation.ispartof	International Conference on Computer Vision (ICCV) (19/10/2025-23/10/2025, Honolulu, Hawai'i)	-
dc.title	V2PE: Improving Multimodal Long-Context Capability of Vision-Language Models with Variable Visual Position Encoding	-
dc.type	Conference_Paper	-