牛津英语词典是工具书转型的缩影。它经历了什么,又会变成什么?
您上一次打开纸质词典是什么时候?
1857 年,英国教会的少数成员可以使用的字典,称为“语言学会”,其中不仅包含少得可怜的词条,还包含不常见和奇怪的英语单词。于是,他们决定启动一个英语词典编译项目。
1933年,历时71年编纂的牛津英语词典(OED)第一版正式出版。其中,前22年是筹备工作(1857年至1879年),在实际编辑的49年(1879年至1928年)中,有4名主编,编组招募英美志愿者约1300人报纸提供报价。 OED 第四任主编 James Murray 不得不在牛津大学旁边建一个小型“图书馆”来收集这些雪一样的词条。
博士。詹姆斯·默里。图片来自:牛津词典博客
不到一个世纪后的 2010 年,OED 编辑委员会宣布,当代英语的权威 OED 第三版可能不会出版。
牛津英语词典第一版。图片来自:Bauman Rare Books
第二版 OED。图片来自:Centered Librarian
消息一出,除了一些感叹之外,更多的人认为这无伤大雅。对于习惯于生活在互联网和智能移动设备环境中的现代人来说,“查词”的行为早已从阅读纸质词典转变为以图像、语音、和文字。在几秒钟内得到答案。
领导牛津英语词典数字化的人是约翰·辛普森,他在 1993 年至 2013 年期间担任牛津英语词典的主编。
准确地说,这位英国人在 1980 年代见证了 OED 语料库的数字化,并从 1990 年代开始领导牛津英语词典在线项目和牛津英语词典第二版的编撰。
约翰·辛普森 (John Simpson) 于 1976 年毕业于英国雷丁大学中世纪研究专业,自 1976 年以来一直在牛津英语词典的编辑工作中担任索引卡组织者。如果你看过同名漫画改编的电影《船的故事》,你可能对索引卡有一个比较直观的认识。在词典编辑普遍使用计算机输入数据之前,索引卡是词典编辑最重要的语料收集工具。这些是小卡片,每张卡片上都写着一个单词及其定义。
韦氏词典编辑部保存的索引卡。图片来自:波士顿环球报
OED在编纂过程中,每个词都要经过收集记录、书写、验证、反复校对等过程,才能入词典。在OED编辑部,负责编写条目的编辑分为四种类型:一般条目、科学条目、新条目条目、日耳曼语和法语条目。频率、国际流动性等,决定了这个词是否有资格被收录。在写作过程中,剪辑团队也会产生更细致的分工——比如会有剪辑师进行录音,每个单词的发音都会通过电视、电影、广播等渠道进行记录和验证.
这是一种已经持续了一百多年的做法——编辑和研究人员在巨大的图书馆里走来走去,从报纸或古籍中寻找每个单词在历史上变化的微小足迹。然后恭敬地将它们排列在薄薄的字典纸上。
但对于约翰·辛普森来说,他恰好处于时代变迁的十字路口。
“早在 1989 年,当 OED 第二版出版时,我们就开始从印刷材料中收集数据并将其输入计算机。 (牛津大学出版社雇佣了 120 名打字员,用了 18 个月收集了 67,000,000 个字符。)OED 的第二版完全计算机化并使用了基本的标签语言结构。当时,我们的探索重点是建立一个庞大的电子数据库。 1990 年代,数据库的大体结构形成后,世界再次发生了变化。我们开始注意到万维网和互联网已经打开的可能性——它可以改变我们一直使用传统字典搜索和出版的方式。”辛普森在他的书《单词侦探:文字生活》中: 从意外发现到 In Selfie 的回忆录。
由于编纂词典的特殊性,“信息工匠”等编辑是电子数据库技术的早期实践者。辛普森透露,在 1980 年代,词典编纂者一直在使用美国报纸的 Lexis/Nexis 数据库。他们逐渐习惯了使用桌面电脑搜索语料库和输入数据。
1995 年,OED 团队再次开始使用密歇根大学开发的“美国制造”在线数据库,其中包含存储在密歇根大学存储库中的美国早期书籍和杂志的信息。这也是 OED 编辑从 CD 格式数据库转移到在线数据库的时候。
2000 年,辛普森和他的团队正式将 OED 上线。从那时起,编辑对条目的添加和修改可以通过互联网完成,人们可以订阅从 OED 获取最新的条目。
2000 年推出的 OED 网络版。图片来自:ARIADNC
“当你了解一个词时,你就会大致了解它最终会成为什么样的产品。每一个字都是一首诗——小到莎士比亚的十四行诗,大到乔伊斯的《尤利西斯》。但是当在计算机上编译字典时,我们越来越意识到我们不应该真正专注于一个单词,这就像拼贴画中的“语言”一样。在我们现在能够建立的语言网络中,你可以比过去更清楚地看到单词之间的密切关系。”John Simpson,2013 年他在接受时代杂志采访时说。
那么,图书馆加载的纸质资料会随着电子数据的产生而消亡吗?约翰辛普森也问过自己这个问题。
他很快发现这种担心似乎是多余的,因为尽管电子数据库可以帮助编辑找到比以前更多的材料,但它并没有真正提高输入速度。一方面,人们实际上并没有看到这么多信息;网上资料的不准确也会给验证过程带来麻烦。 “有时,”辛普森说,“你仍然必须依靠纯粹的人力和足智多谋的研究人员才能在书架深处找到问题的根源。这两种验证方法可以共存。”
牛津英汉词典的应用是由一个叫刘浩贤的中国人发起的。
何贤刘在香港牛津大学出版社工作了 16 年。刚加入公司时,他负责英汉词典的编辑助理。现任牛津英汉词典主编,牛津大学出版社大中华区出版社社长。
就在约翰·辛普森即将退休之际,刘浩贤和他的团队负责将牛津高级英汉词典(第七版)制作成一个应用程序。
图片来自:当当
“牛津被选为我们数字出版的测试,因为这本词典的销售一直比较稳定。”刘浩先告诉好奇日报。
2011 年前后,刘浩贤代表牛津大学出版社和商务印书馆提出了制作应用程序的想法。由于互联网和搜索引擎的介入,全球纸质词典的销量进入了快速下滑的状态,变革势在必行。
当时牛津英语书,牛津大学出版社已经具备了一些相关数字产品的生产和开发的基础,包括向一些电子产品制造商授权内容。一个典型的例子是1990年代后期与日本卡西欧合作推出的电子词典。大大简化了人工查词的过程,同时小体积可以输入十余种不同版本和用途的词典。
但他还是要面对整个字典编辑团队对开发应用程序的过程一无所知的现实。
不仅如此,刘浩贤的应用提案从一开始就被各方封锁。由于电子书的读者群尚不明确,各家出版商对新兴的数字出版业务并没有信心。另一方面,100多年来,纸质词典已经形成了完整的销售、营销渠道和参考标准,但这个App要卖给谁呢?如何推广?没人知道。
“正是这些陌生感,让所有的合伙人在提案初期都对这件事产生了警惕。”刘浩贤说牛津英语书,“唯一可以参考的标准就是进入排行榜前列的软件,所以我们会一一做。下载下来研究一下,软件有什么不足,我们有什么能做什么,不能做什么?一些编辑甚至因为这个项目而拥有了他们的第一部智能手机。”
另一个让刘浩贤感到压力的因素是词典软件的盈利模式目前还没有明确的定论。
在整个应用开发计划敲定前夕,他被老板问了两个问题:现在,数字版对纸质出版会有什么影响?这个数字版能赚多少钱?
“当时我并没有想太多。”刘浩贤回忆说,“我当时的回答是:第一,不要把电子版的出版当成对纸质版的打击,因为电子版的使用方法与纸质版不同。它们是有区别的。数字版是一个全新的机会——寻找新读者,并为老读者带来新内容。第二个问题,我不能告诉你我们赚了多少钱,但我可以告诉你,你能损失的最多的是我们的编程和开发成本。”
刘昊先当时觉得这个答案并不完美,好在他的计划并没有因此而被仓促否决。更让他高兴的是,牛津高端应用上线两个月后的销量,让出版社收回了开发成本,并在打折季的营销活动中,进入了苹果商店软件销量榜首在香港。 7号。
牛津高级英汉词典应用程序(第 8 版)。图片来自:苹果商店
刘浩贤将这一成功归功于“顺应时代发展的实践”。此外牛津英语词典是工具书转型的缩影。它经历了什么,又会变成什么?,《牛津词典》在此之前建立的良好口碑也让其得到了众多教育机构和专业出版商的推荐。
牛津高级英汉词典App其实和现在大家使用的在线词典软件不一样,虽然两者都可以访问专业词典出版商的语料库。以网易旗下的有道词典为例,其词库包括柯林斯英汉词典、21世纪英汉大词典,甚至维基百科上的内容。当你查找一个词时,你可以从这些数据库中得到不同的解释,以及搜索引擎提供的英文例句。
与此相比,因此传统词典出版社建立的语料库所能提供的定义范围有限。
首先,应用中的内容来自牛津英语词典的语料库。语料库的标签结构决定了app可以提供的查词功能和定义范围。编辑和工程师在创建词库内容时,很大程度上受到语料库中每个信息标签的限制。
与1990年代John Simpson的电子数据库相比牛津英语书,刘浩先反复提及的OED语料库已经是一个由编辑和工程师不断完善的数十亿字的庞大数据库。它收集来自不同媒体的语料库,包括报纸、杂志、文学、广播录音、戏剧对话等,记录每个语料库的出处,包括时间、地点和来源。编辑通过分析语料的内容来写词条——根据使用频率、出现时间、国际流动性等来决定是否包含一个词,并分析写出词的含义。示例也选自语料库,并保证是真实的使用记录。编辑通常倾向于选择组织良好、语法符号化的语料库。
其实无论是词典、电子词典、内容授权,都是本语料库支持的前端产品。曾经是默里的一家小书店,而现在,语料库让我们在快速出国旅行时,可以在几秒钟内阅读我们面前菜单上的菜名。
同样得到语料库的支持,除了传统意义上的词典开发外,牛津大学出版社还对广泛的内容进行授权——包括与苹果、谷歌、腾讯等科技公司的内容合作。
“除此之外,我们还在建立一个收集不同语言的学术计划。”刘浩先最后提到:“我们现在说的是中英文词典,但是牛津也有不同国家和地区的词典。其他词典项目。我们也打算做一个大型的多语种数据库,以后不会只能生产词典、电子词典、翻译软件,但它也将成为牛津大学出版社语言保护计划的一部分。我们的目标是包括一百种不同的语言。”
题图来自:Examineing the OED
TED 还谈到了人与机器之间的冲突。他们在说什么? | TED 2017 现场报道
LVMH 65 亿欧元收购 Dior,70 年老品牌在卖什么?
拥有1.30,000家门店和12个品牌的女鞋的百丽集团可能正在低价销售。百货一楼的老式女鞋为什么不能买?
本文由佚名发布,不代表英语口语培训班_英语培训机构排名 - 学好英语立场,转载联系作者并注明出处:/cydz/5434.html