同一个算法问过ChatGPT、claude、gemini、grok、千问,发现copilot的代码能力更强一些,咋就说微软大模型就不行了?感觉微软作为老三在猥琐发育呢,哈哈~ from pydub import AudioSegment import pysrt import pytesseract from PIL import Image def get_word_timestamps(srt_file): # 读取字幕文件 subs = pysrt.open(srt_file) # 创建一个空列表来存储(单词,时间)元组 word_timestamps = [] # 遍历每一条字幕 for sub in subs: start_time = sub.start.hours * 3600 + sub.start.minutes * 60 + sub.start.seconds + sub.start.milliseconds / 1000.0 words = sub.text.split() # 将每个单词及其开始时间添加到列表中 for word in words: word_timestamps.append((word, start_time)) return word_timestamps def get_word_positions(image_file): # 打开图像文件 image = Image.open(image_file) ...