消费:耳机上的「计算机」——AirPods 值得期待的新功能、AI 如何改变新闻消费的习惯;
加工:iOS 17 相册管理的新特性、大模型应用 Bearly 使用感受;
创造:桌面版 Edge 浏览器与新 Bing 结合,如何构建一个「智能工作台」?
接下来,欢迎和我一起探索关于数字工具的所有可能。信息消费耳朵上的「计算机」
先补充一个上周关于流媒体音乐服务的内容,读者郝海龙兄分享了他对 Qobuz 使用的体验:
Qobuz 有一个很重要的 Download Store,可以像以前购买 CD 一样,直接购买无损歌曲或专辑,无须订阅。购买之后,会提供各种无损及有损格式的下载(专辑本身不支持的高码率除外),比 iTunes Store 也直观很多,如果你使用第三方硬件播放器,或者使用 Flacbox 这种利用 Dropbox 同步曲库的软件,直接下载保存文件非常方便。这意味着如果你想体验一下,也可以考虑找一张自己喜欢的,想要收藏地专辑购买,就可以体验到几乎全部功能了。
另外海龙老师还提到陈甯对于不同流媒体音乐服务音质的评测,我找到了评测视频,内容很专业,感兴趣的朋友可以在这里观看。
接着谈「听」,AirPods 一直以来都通过「硬件+软件」的方式,不断拓展一款耳机的使用场景,软件层面,即将发布的 iOS 17,将为 AirPods Pro 2 带来众多功能,包括:
· 对话感知,降低前方说话人的音量并增强他们的声音,同时减少背后的背景噪音;
· 听力健康:比如通过耳机帮助用户快速测试听力,最终可能让 AirPods 成为一个专业助听器;
· 体温检测:利用耳机检测耳朵温度,搭配 Apple Watch 对于腕部体温的检测,进一步构建完善的体温检测体系;
不过 Mark Gurman 也强调,上述新硬件的——还包括使用 USB-C 充电接口的设计——不会在短期内出现,不同于 iPhone,AirPods 的更新换代周期大概需要两到三年,第二代 AirPods Pro 在 2022 年发布,因此新的硬件最快也要到 2024 年(也就是明年)才会更新。
回想 2016 年第一代 AirPods 发布时,整个消费电子行业对于真无线耳机的理解,或许还不如 2007 年 iPhone 发布时的手机行业,我在当时一篇文章里写道:
如果说鼠标键盘的交互催生了 PC 的一系列应用,触摸屏交互的出现让应用交互步入一个新的阶段。包括苹果在内的巨头们押注语音交互,会不会也会改变硬件、软件的形态呢?不妨把 AirPods、索尼的 Xpeira Ear 当作一个新的计算机,拥有语音控制的专属应用,这或许是物联网的未来新利体育手机,也是这些可穿戴设备最好的归宿。
2019 年,AirPods Pro 带来了「通透模式」,这更像是一种基于声音的「增强现实」,与视觉的增强现实应用相比,声音领域的增强现实也有诸多实用价值,它改变了过往降噪耳机对于声音的处理方式,利用类似「叠加」的方式,实现了耳内声音(音乐)与耳外声音(环境音)的协同,最终带来的就是如其名字所描述的「通透」效果。
某种意义上,AirPods Pro 也成为 Vision Pro 出现的前兆,首先是沉浸式的声音(音乐和环境音)体验,然后借助显示技术的突破,实现视觉和听觉的沉浸式体验,这构成了苹果「空间计算」的基本框架。
上周 iOS 的 ChatGPT 更新,正式为移动版应用带来了基于 Bing 的网页检索功能,这也让移动应用 ChatGPT 有了更多用武之地,比如我们现在可以直接在 ChatGPT 里获取新闻:
还可以将 Bing 的实时信息检索能力与 GPT-4 的推理能力相结合,进一步优化信息消费和加工的流程,甚至可以作为我——这样一个内容生产者——进行内容生产的起点,这些工作现在都可以在手机上高效完成。
大语言模型也在改变新闻应用。过去一段时间,我经常在 iPhone 上使用这款名为「Artifact」的新闻应用,它使用 OpenAI 的 API 带来一系列创新体验,比如自动生成新闻摘要机制,如下图所示,打开任意一篇文章,在右上角的「Aa」选项里轻点「Summarize」即可生成摘要,而且还提供了若干个风格可选:
再比如,该应用尝试引入 AI 检测标题党新闻,并撰写新的标题,以此减少用户过度的注意力消耗。目前标题生成过程还需要人类参与——用户可以举报某条新闻的标题,编辑对 AI 生成新标题进行审核——但未来有望实现真正意义的自动化改写标题。
如上图所示,如果看到标题后面带有星星的图案,这就是 Artifact 利用 GPT-4 生成的新标题。
Google 相册一直以来是我推荐的云上相册服务,它不仅具有跨平台的属性,还能依托 Google 的 AI 技术实现更高效的相册管理。
当你相册的照片超过 5000 张之后,仅仅依靠拍摄日期或地点进行分类检索的效果会非常差,此时,基于人物面部、特定物体(山、高楼)、特定场景(博物馆、演唱会)的照片搜索会极大提升你找到一张照片的效率。
最近,Google 相册更新了基于后脑勺或人物服装的识别和归类功能,基本原理并不高深,但处理方式比较聪明。简单来说,就是 Google 相册会根据拍摄地点、时间和其他带有面部特征的照片进行推测,以此判断一张不露脸的人物照片是否是某人。
不过需要注意的是,和其它识别应用类似,Google 相册也不能保证 100% 正确,你可以在App StorePlay Store免费下载这款应用,初始容量为15GB。
而在今年秋天更新的 iOS17 里,相册管理也带来一系列重要的更新,分享几个我在近期使用过程中感受比较明显的功能,比如单独的「宠物相册」,这意味着,你不仅可以为重要的人建立人物相册,还可以将宠物们的照片分门别类地管理,这一切都会自动生成:
第三,相册的搜索能力大幅提升,一方面是可自动识别照片里的文字、数字信息,整个过程自然流畅;另一方面,你甚至可以拍摄汽车中控台上的图示,然后在相册里识别其含义,下图来自 Reddit 用户yahlover:
我在搜索应用 Poe 替代应用时发现了 Bearly,相比前者,Bearly 提供了一些差异化的能力。
首先是多平台覆盖,Bearly 横跨 新利体育macOS、Windows、Linux、iOS,还提供了 Chrome 浏览器扩展,能够充分应用到各类系统和场景中。
其次,Bearly 内置了丰富的提示词体系,同时也支持用户添加符合自身需求的提示词,以此构建起一个个调用大模型的功能入口。
第三,支持网络实时检索与附件处理可以作为一个加分项目,我的一个使用偏好是在处理某条消息源的时候,让 Bearly 检索网络上类似的信息。
附件处理支持 PDF、Doc 等格式,可调用 Claude 100K Token 的处理能力,至于效果嘛,只能说比较随机,这和我们在其他对话场景里使用大模型的体验比较类似,你无法保证模型输出的结果正确且稳定。
Bearly 的缺点也非常明显。比如复杂的功能模块,即便是在 macOS 这样的桌面设备上,我也很难快速找到 Bearly 的某项功能,而在 iPhone 的小屏幕上,所有功能更是叠放在多层菜单里,需要不断查看、点击,才能使用一个功能。
过去两周的使用过程中,「粗糙感」时常出现在我的脑海里,无论是 UI 设计、产品逻辑还是交互体验,都是一种「粗糙感」,这可能是我对这款应用最大的感受。
你可以通过这里体验 Bearly 的基础能力,如果付费的话,建议先以一个月为周期体验其产品能力是否符合自己的需求。
在新 Bing 的助攻下,桌面版 Edge 浏览器正在发生质的变化。如下图所示,现在微软已经将 Bing 放在 Edge 浏览器边栏最显眼的位置,点击右侧边栏上的图标,即可快速调出新 Bing:
借助 Edge 浏览器访问网页、打开文件的特性,叠加 Bing 的 GPT-4 的文本分析与生成的能力,一个「智能工作台」的模样已初见端倪。
首先,你可以 Bing 固定在浏览器右侧,作为访问网页的「智能助理」,当你在左侧打开某个网页,它可以快速帮你生成网页摘要,并且可以结合网页内容进行对话,你还可以随时将「对话内容」延伸到 Web 上,也就是让 Bing 检索全网内容,如下图所示:
由于 Edge 浏览器具备打开众多文件格式的能力,因此我们还可以发挥更多想象力:
· 将一个 Markdown 文件放在 Edge 浏览器里,下图展示的,就是我处理一份两万字的会员通讯存档:
其次,开始「撰写」内容。比如,我会在在阅读网页或资料的过程中,引导 Bing 结合资料内容写一些主题的草稿,这些草稿内容或许不会成为正式版本,但能够带来一些灵感:
再比如,对于文档的修订,我会在 Office365 网页版里边阅读边修订,左侧复制某一段话,粘贴到右侧 Bing 里后,Bing 会自动询问这些文本的处理方式,支持「修改」、「扩展」等,如下图所示:
上述两个场景其实还有诸多细分的领域,但篇幅所限,我无法给出更详细的介绍,如果你还有更好的工作流程,欢迎回复这封邮件,我会将您的经验分享给更多人。
仅就这两个方面而言,我已经感受到了 AI 技术带给内容生产者的巨大价值。利用理解现有文本的能力与实时的搜索能力、文本生成能力,Edge 浏览器展示出了一系列新的可能,如果你的职业是学生、媒体从业者或其他需要经常和文本打交道的从业者,不妨尝试一下 Edge 浏览器,体验一番面向未来的工作流程。