互联网档案馆

本页使用了标题或全文手工转换,现处于中国大陆简体模式
求闻百科,共笔求闻
互联网档案馆
Internet Archive
公司类型非盈利组织
网站类型
数字图书馆
语言英语
成立1996年5月12日,​27年前​(1996-05-12[1][2]
总部美国加利福尼亚州旧金山列治文区
创始人布鲁斯特·卡利
服务存档、开放图书馆互联网档案馆(2001年起)、网络标签、NASA图片、普林格文件
员工200
网址archive.org
推出时间1996年 (1996)

互联网档案馆(英语:Internet Archive)是美国的一个由Alexa创始人布鲁斯特·卡利创办于1996年的非营利性的、提供互联网多媒体资料文件阅览服务数字图书馆,总部位于加利福尼亚州旧金山的列治文区,其宣传口号是“普及所有知识”(英语:universal access to all knowledge.)。

该“档案馆”提供的数字资料有如网站、网页、图形材料音乐、视频、音频、软件、动态图像和数百万书籍等的永久性免费储存及获取的副本。

数据来源

该档案馆的数据是由自带的网络爬虫自动搜集的,网站存档档案馆“网站时光机”抓取了超过1500亿的网页[3][4]

资金情况

年度预算约为1000万美元,来源则是其网页爬虫服务、合作关系、赞助以及卡利-奥斯丁基金会[5]。总部雇员只有数十人,大部分雇员工作于书籍扫描中心,在红木城也有数据中心。

数据库

档案馆的数据库是国际互联网保存联盟成员[6],2007年被加利福尼亚州选为官方指定图书馆[7]。档案馆收集的数据是各种各样的。截止2015年年初,互联网档案馆共收录了2400款MS-DOS游戏[8]

历史

1996年,卡利(Brewster Kahle)在创建盈利性的Alexa Internet的同时也创立了互联网档案馆;同年10月开始收集存储数据[9][10]。不过,直到2001年开发了“时光机”前,这些数据都无法访问。1999年末扩展收集范围[11]

2012年8月,宣布[12]将在其现存的130万文件的下载选项中加入BitTorrent[13][14]。因为通过两个文件数据中心协调,这成为从该档案馆下载数据的最快方法[13][15]

2013年11月6日,档案馆在里奇蒙德区的总部失火,损坏了许多设备和一些附近的公寓[16][17],预计损失达到60万美元[18]

网页存档

时光机

网站时光机是互联网档案馆最重要的服务之一,其名取自一部名为The Rocky and Bullwinkle Show的美国卡通片。时光机允许人们去搜索和访问其网页存档。在一些国家和地区,时光机这个术语的使用已经非常普遍,“时光机”和“互联网档案馆”甚至开始被当做同义词使用。

Archive-It

Archive-it是一款帮助机构和个人创建存档的工具。一旦目标网站的URL被输入并保存且该网站允许互联网档案馆所使用的robots.txt访问,该网页将会成为时光机的一部分[19]。截至2014年3月 (2014-03),Archive-it在美国的46个州和其他16个国家共有超过275个机构是其合作伙伴,共有超过74亿个网页的在线存档。

收集书目

互联网档案馆的“抄写员”图书扫描工作站

互联网档案馆收集了世界各地的数字化图书以及各大图书馆和文化遗产机构的特殊藏品。互联网档案馆在5个国家经营着33个图书扫描中心,其活动受图书馆和基金会的财政支持。[20][21]截至2013年7月 (2013-07),档案馆共收集了440万本书,每月的下载量超过1500万。[20]截至2008年11月 (2008-11),档案馆共有100万个网络文本,总大小高达0.5PB,涵盖了原始照相图像、裁剪和歪斜的图像、PDF文件和原始OCR数据。[22]

影像资料

互联网档案馆的缩微胶片
互联网档案馆的录影带

除了上述内容之外,互联网文件库还收集了大量的数字媒体,这些数字媒体均符合美国公共领域CC授权协议。这些媒体文件均会根据媒体类型(moving images、audio、text、etc.)被组织成集合,并根据各项标准被分入子集合。例如大都会艺术博物馆提供的相关资料就会被分入一个子集,目前该集合相关资料的数量已经超过了140,000个[23]。每个主集合都含有一个“社区”子集合(以前被称为“开源”)用于存储公众的贡献。

音频收藏

音频档案包括音乐,有声读物,新闻广播,旧时广播的节目和各种其他音频文件。该系列中有超过200,000个免费数字录音。子集包括有声读物和诗歌,播客,[24]非英语音频等。[25]

Live Music Archive子集包括来自独立音乐家的超过170,000个音乐会录音,以及更为成熟的艺术家和音乐合奏,以及关于录制他们的音乐会的宽松规则,例如Grateful Dead,以及最近的The Smashing Pumpkins。此外,Jordan Zevon还允许互联网档案馆收藏他父亲Warren Zevon的音乐会录音。Zevon系列从1976年至2001年不等,包含126场音乐会,包括1,137首歌曲。[26]

布鲁克林博物馆

此系列包含大约3,000件布鲁克林博物馆的物品。[27]

参见

类似的项目
其他

延伸阅读

  • Kahle, Brewster. Archiving the Internet. Scientific America. 1996-11. 
  • Kahle, Brewster. Scanning Center Fire — Please Help Rebuild. Internet Archive Blogs. 2013-11-06. 
  • Jill Lepore. The Cobweb. The New Yorker. 2015-01-26 [2016-10-30]. 
  • Ringmar, Erik. Liberate and Disseminate. Times Higher Education Supplement. 2008-04-10 [2016-10-30]. 

外部链接

参见

  1. Internet Archive: About the Archive. Wayback Machine. 2000-04-08. 
  2. archive.org WHOIS, DNS, & Domain Info – DomainTools. WHOIS. [2016-03-13]. 
  3. Internet Archive: Projects. Internet Archive. 
  4. Grotke, A. (2011). Web Archiving at the Library of Congress. Computers In Libraries, 31 no. 10 (December 2011), p. 15-19.
  5. Womack, David. Who Owns History?. Cabinet Magazine. No. 10. Spring 2003 [2013-04-13]. 
  6. "Members" International Internet Preservation Consortium. Netpreserve.org
  7. "Internet Archive officially a library" , May 2, 2007. Archive.org
  8. Internet Archive 放大招,2400 款 MS-DOS 游戏任你玩. ifanr爱范儿. 2015-01-07 [2017-01-29]. 
  9. 互联网真能帮人类历史存档吗?. 腾讯科技. 2015-01-24 [2016-10-30]. 
  10. Internet Archive: In the Collections. Wayback Machine. 2000-06-06. 
  11. "Daisy Books for the Print Disabled" , February 25, 2013. Internet Archive.
  12. Kahle, Brewster (August 7, 2012). "Over 1,000,000 Torrents of Downloadable Books, Music, and Movies" . Internet Archive Blogs.
  13. 13.0 13.1 Van der Sar, Ernesto. Internet Archive Starts Seeding 1,398,875 Torrents. TorrentFreak. 2012-08-07 [2014-03-21]. 
  14. "Hot List for bt1.us.archive.org (Updated August 7 2012, 7:31 pm PDT)" . US Cluster. Internet Archive.
  15. "Welcome to Archive torrents" . Internet Archive.
  16. Alexander, Kurtis. Internet Archive's S.F. office damaged in fire. San Francisco Chronicle. 2013-11-06 [2014-03-21]. 
  17. Fire Update: Lost Many Cameras, 20 Boxes. No One Hurt. Internet Archive Blogs. 2013-11-06. 
  18. Shu, Catherine. Internet Archive Seeking Donations To Rebuild Its Fire-Damaged Scanning Center. TechCrunch. 2013-11-06 [2014-03-21]. 
  19. Rossi, Alexis. Fixing Broken Links on the Internet. Internet Archive. 2013-10-25. 
  20. 20.0 20.1 Hoffelder, Nate (July 9, 2013). "Internet Archive Now Hosts 4.4 Million eBooks, Sees 15 Million eBooks Downloaded Each Month" . The Digital Reader.
  21. Kahle, Brewster (May 23, 2008). "Books Scanning to be Publicly Funded" . Internet Archive Forums.
  22. "Bulk Access to OCR for 1 Million Books" . Open Library Blog. November 24, 2008.
  23. Metropolitan Museum of Art - Gallery Images: Free Image : Download & Streaming : Internet Archive. Internet Archive. 
  24. How to Host Podcast MP3 on Archive.org. TurboFuture. [2019-02-25] (英语). 
  25. Download & Streaming : Audio Archive : Internet Archive. archive.org (英语). 
  26. Clarke, John. Warren Zevon Live Shows Hit the Web, Possible Film in the Works. Rolling Stone. 2009-06-03 [2019-02-25] (美国英语). 
  27. Brooklyn Museum : Free Image : Free Download, Borrow and Streaming : Internet Archive. archive.org (英语).