Python提取Word中的所有图片

卓濯 · 发表于 2022-12-22 20:28:56

原理说明

.docx文件其实也就是一个压缩文件，当我们将一个.docx文件直接解压后可以看到_rels、docProps、word三个文件夹和文件[Content_Types].xml，其中我们要找的图片就在word/media目录内。因此，要提取word内的图片可以考虑将.docx文件解压，再从word/media文件内提取图片，最后将解压后的临时文件删除即可。
代码实现

完整代码

GitHub链接：https://github.com/XiaokangLei/image_toolkit

方法1

import zipfile
import os
import shutil

def word2img(word_path, result_path):
tmp_path = f&#39;{os.path.splitext(word_path)[0]}&#39;
splitext = os.path.splitext(word_path)
zip_path = shutil.copy(word_path, f&#39;{splitext[0]}_new{splitext[1]}&#39;)
with zipfile.ZipFile(zip_path, &#39;r&#39;) as f:
      for file in f.namelist():
         f.extract(file, tmp_path)
os.remove(zip_path)
pic_path = os.path.join(tmp_path, &#39;word/media&#39;)
if not os.path.exists(pic_path):
      shutil.rmtree(tmp_path)
      return &#39;no pictures found&#39;
pictures = os.listdir(pic_path)
if not os.path.exists(result_path):
      os.makedirs(result_path)
for picture in pictures:
      word_name = os.path.splitext(word_path)[0]
      if os.sep in word_name:
         new_name = word_name.split(&#39;\\&#39;)[-1]
      else:
         new_name = word_name.split(&#39;/&#39;)[-1]
      picture_name = f&#39;{new_name}_{picture}&#39;
      shutil.copy(os.path.join(pic_path, picture), os.path.join(result_path, picture_name))

shutil.rmtree(tmp_path)
return (os.path.join(result_path, pic) for pic in os.listdir(result_path))方法2

需要安装docx库：pip install docx

import os
import docx
import re

def word2img2(word_path, result_path):
doc = docx.Document(word_path)
dict_rel = doc.part._rels
for rel in dict_rel:
      rel = dict_rel[rel]
      if &#34;image&#34; in rel.target_ref:
         if not os.path.exists(result_path):
            os.makedirs(result_path)
         img_name = re.findall(&#34;/(.*)&#34;, rel.target_ref)[0]
         word_name = os.path.splitext(word_path)[0]
         if os.sep in word_name:
            new_name = word_name.split(&#39;\\&#39;)[-1]
         else:
            new_name = word_name.split(&#39;/&#39;)[-1]
         img_name = f&#39;{new_name}_{img_name}&#39;
         with open(f&#39;{result_path}/{img_name}&#39;, &#34;wb&#34;) as f:
            f.write(rel.target_part.blob)

品牌投资方 · 发表于 2025-5-31 11:42:28

前排，哇咔咔

老六九弓长众 · 发表于 2025-6-1 17:59:52

看起来好像不错的样子

扛着犁耙闯天下 · 发表于 2026-1-3 06:13:55

锄禾日当午，发帖真辛苦。谁知坛中餐，帖帖皆辛苦！

演明 · 发表于 2026-2-16 14:34:05

路过帮顶嘿嘿

凤翔天 · 发表于 2026-2-24 09:56:21

顶顶更健康

袁头 · 发表于 2026-3-18 06:37:54

顶顶更健康

拗相公 · 发表于 2026-3-31 07:18:19

介是神马？！！

深泓安服 · 发表于 2026-4-4 09:14:09

啥玩应呀

途人 · 发表于 2026-4-4 15:56:02

支持，楼下的跟上哈~

		自动登录	找回密码
密码			立即注册

Python提取Word中的所有图片

浏览过的版块