Nature
html5 bootstrap template

9 de febrero de 2021

La ciencia abierta y el ciclo del bombo


La ciencia actual es semiabierta (SA) en el sentido de que solo se encuentran disponibles artículos científicos y, a menudo, a un precio significativo. Los artículos semiabiertos están disponibles porque la imprenta occidental se inventó en Alemania en el siglo XV. Y como ha argumentado Elizabeth Eisenstein revolucionó la sociedad occidental, incluida la ciencia. “Solo” dos siglos después, la Royal Society de Inglaterra alentó a los científicos (llamados filósofos naturales en aquellos días) a publicar sus resultados en lugar de mantenerlos privados]. El número de revistas que apoyan esta misión creció lentamente al principio (consistente con el lento crecimiento en el número de científicos), pero en los siglos XIX y XX ambos números se dispararon, especialmente después de que Alemania creara la universidad de investigación a principios del siglo XIX y otros países occidentales. Las naciones siguieron su ejemplo (por ejemplo, Johns Hopkins en los Estados Unidos en 1876).

La imprenta fue el detonante de la innovación que permitió la ciencia semiabierta (SA). Las computadoras en red de alto rendimiento son el equivalente actual de la imprenta. Son mil veces más potentes y mil veces más baratas que las computadoras de hace una generación:

un disco de varios terabytes cuesta cien dólares, una computadora de mil dólares puede ejecutar varios miles de millones de instrucciones por segundo y la red que conecta millones de esas computadoras tiene un ancho de banda cercano a un terra-bit por segundo. El hardware con estas capacidades es el disparador de la innovación que permitirá la ciencia abierta (CA), que es la "publicación" de todos los resultados científicos relevantes: datos, software, flujos de trabajo, etc., además de artículos resumidos que describen esos resultados científicos, y la accesibilidad de todos estos elementos (al menos todos los producidos con dinero público) por el costo de un Conexión a Internet. La publicación adquiere un nuevo significado aquí, ya que las computadoras deben "comprender" todos estos artefactos lo suficientemente bien como para brindarnos una nueva ayuda.

Los artículos científicos, por supuesto, han sido digitales durante algún tiempo, pero ni abiertos en el sentido de SA ni disponibles para análisis semántico. El software es digital por naturaleza y el movimiento de código abierto ya ha hecho que el software sea una parte muy importante del sistema operativo. Actualmente, los flujos de trabajo científicos están experimentando una amplia automatización que los convertirá más fácilmente en parte del sistema operativo. Este artículo se centra en los datos científicos, que están en proceso de convertirse en parte de SA.

Por supuesto, el hardware es solo la mitad de la propuesta de IT. Y mientras que el hardware está preparado para el sistema operativo, el software no. Describo de manera caprichosa tres generaciones de informática, de las cuales solo un tercio puede admitir SA. La Generación Uno fue de computadoras aisladas (también de bajo rendimiento y costosas), de 1950 a 1995. La aparición de la Internet comercial en 1995, que ha conectado un número cada vez mayor de computadoras, dio paso a la Generación Dos. Esta generación todavía existe, ¿1995 a 2025 o 2030? Uno de los primeros fabricantes de estaciones de trabajo describió correctamente esta generación como una en la que “la red es la computadora” (pero con muchos conjuntos de datos no interoperables). La tercera generación de informática surgirá cuando el software avanzado permita la interoperabilidad de datos heterogéneos. Por lo tanto, no solo será una computadora (la red), sino que esa computadora tendrá efectivamente un solo conjunto de datos.

La interoperabilidad de los datos requiere una capa semántica. La semántica es una de las áreas más estudiadas de la inteligencia artificial y entró en una nueva fase en el nuevo siglo.

Hace veinte años, cuando los diseñadores web crearon la Web Semántica, un observador señaló que "la única novedad de la Web Semántica es la Web". Sin embargo, así como la Web revolucionó el acceso a la información, la Web Semántica puede revolucionar el acceso al conocimiento. Otro esfuerzo que avanza en la interoperabilidad de datos heterogéneos es la Arquitectura de Objetos Digitales (DO). También fue diseñado hace varias décadas, pero también se ha vuelto práctico con las computadoras conectadas de alto rendimiento de hoy en día. Cuando esfuerzos como estos u otros logren sus objetivos, tendremos la tercera generación de computación, donde no solo la red es la computadora, sino que, como se indicó anteriormente, “todos” sus datos son interoperables. Como la palabra "datos" se utiliza aquí, incluye artículos, datos, software, flujos de trabajo, etc. En un entorno técnico de este tipo, el sistema operativo estará habilitado.

Por supuesto, estar habilitado y ser ampliamente adoptado son dos cosas diferentes. El camino entre la habilitación y la adopción, también conocido como el camino de la innovación a la producción, ha sido caracterizado por Gartner como un ciclo exagerado. El siguiente gráfico representa claramente los posibles altibajos a lo largo de este camino.

Gartner afirma que esta curva representa un patrón común que surge con muchas tecnologías nuevas u otras innovaciones. Como se indicó anteriormente, el detonante de la innovación en hardware se ha evidenciado durante diez años. En ese momento, las agencias federales de EE. UU. Establecieron un grupo de libras esterlinas senior entre agencias para investigar big data. La tesis de este grupo era que ahora podíamos almacenar más datos de los que podíamos procesar de forma eficaz. Varios años después, la Oficina de Política Científica y Tecnológica de EE. UU. Encargó a las agencias orientadas a la investigación que pusieran a disposición del público todos los artículos y datos científicos creados con el apoyo federal (Open Data (OD)) por el costo de una conexión a Internet. Varios años después de eso, una conferencia en el Centro Lorentz en la Universidad de Leiden afirmó que simplemente "abrir" esos datos no era suficiente para asegurar la interoperabilidad. La conferencia creó el acrónimo FAIR data, identificando algunas de las características que el DO necesita para ser de máxima utilidad: localizable, accesible, interoperable y reutilizable. Como se indicó anteriormente, los datos científicos "abiertos" son parte del sistema operativo junto con los artículos, software, flujos de trabajo, etc. Pero en un uso más amplio de la palabra, los artículos, el software, los flujos de trabajo, etc., son todos datos o DO.

Entonces, durante la última década, muchas personas pudieron ver que el sistema operativo ya no era una quimera. A medida que avanzamos en terminología desde big data hasta OD y datos FAIR, las expectativas han seguido aumentando, a pesar de que los datos FAIR eran una receta de política, no un software que funcionaba.

Se sospecha que ahora podemos estar en o cerca de un pico de expectativas del sistema operativo. Se está financiando la European Open Science Cloud (EOSC), las agencias federales de Estados Unidos están comenzando a implementar sus requisitos de DO y la Research Data Alliance (RDA) global ha estado funcionando durante casi una década. Los datos FAIR podrían haber ayudado al mundo en su lucha contra el coronavirus, y los defensores de los datos FAIR dicen que esto ha creado un estímulo para la acción y que estaremos mejor preparados para la próxima pandemia.

Después de una década de buscar sistemas operativos, se teme que las expectativas pueden estar a punto de ser probadas. Se empezará a reconocer que el software no está listo y que no se han resueltos problemas críticos en las dimensiones empresarial y social, que por supuesto son más difíciles que los problemas de software. Se desea la mejor de las suertes a la EOSC y las agencias estadounidenses, se teme que sus esfuerzos iniciales producirán datos que están lejos de ser FAIR. Y la RDA ha estado trabajando en componentes, no en sistemas de datos.

Estas posibles decepciones podrían hacer que muchas personas asuman que el sistema operativo no es todo lo que se imaginaba. Hay que enfatizar que se ve un potencial de desilusión, no una certeza. Por otro lado, se está seguro de que el sistema operativo, con o sin depresión, se elevará a un nivel de productividad.

Con respecto a las dimensiones comerciales del sistema operativo, los editores están preocupados por su viabilidad si pierden su modelo de suscripción de precios. Y dado que los editores incluyan sociedades científicas y empresas comerciales, una parte importante de la comunidad científica está preocupada. Como ejemplo de la resistencia activa, el gobierno de los EE. UU. Pretendía a principios de este año (2020) poner más fuerza en el requisito de datos abiertos de la agencia, pero un gran esfuerzo de cabildeo ha desviado, al menos por el momento, ese plan. Los defensores de los sistemas operativos también temen que los editores comerciales quieran apoderarse del mercado de datos científicos, ya que durante años han ocupado gran parte del mercado de artículos científicos. Si tuvieran éxito en bloquear los datos bajo protección de derechos de autor como lo han hecho con los artículos, la desilusión sería palpable.

Por difícil que sea el problema empresarial, el "problema social" puede ser el mayor impedimento (temporal) para el sistema operativo. El problema social, como se percibe, es que muchos (pero no todos) los científicos creen que el sistema operativo puede ser bueno para la ciencia, pero es malo para los científicos. Hasta ahora (al menos en los EE. UU.) A los científicos se les ha dado palos pero no zanahorias para adoptar prácticas abiertas. Hasta que los científicos sean recompensados adecuadamente por compartir todos sus resultados (como lo son actualmente solo por sus artículos), ese intercambio es una imposición personal, incluso si es bueno para la empresa científica en su conjunto.

Después de todo este aparente rechazo, es hora de que surja el optimismo. Software semántica se emerger, las leyes de propiedad intelectual se reconoce que la información es diferente, y los científicos será recompensado por y abrazará OS. Se sospecha que el software será lo primero y las leyes de propiedad intelectual lo segundo en la pendiente de la iluminación. Entonces, cuando (¿una nueva generación de científicos?) Adopte el sistema operativo, habremos alcanzado la meseta de la productividad.

Como se mencionó anteriormente, el software semántico en el contexto de la Web y en otros lugares tiene veinte años. Ha tenido una asimilación más lenta en parte porque no ha habido una "fuerza importante" que la respalde. En el caso de Internet, primero fue el gran esfuerzo de la Agencia de Proyectos de Investigación Avanzada de Defensa de los Estados Unidos (DARPA), que invirtió veinte años de desarrollo continuo (primero con NCP y luego con TCP / IP). Luego, la NSF (National Science Foundation) de EE. UU. Invirtió diez años, lo que resultó en que Internet se convirtiera en la infraestructura de red para la educación superior de EE. UU.

Tenga en cuenta que fue sólo después de estos treinta años de desarrollo que Internet "irrumpió en un público sorprendido", como si acabara de crearse. DARPA también apoyó la investigación a fines de la década de 1990 que condujo a la Web semántica, pero ni él ni NSF siguieron adelante con el mismo nivel de apoyo que habían brindado a Internet. Por estas y otras razones, el software de datos se ha dejado en manos del sector privado, que, por supuesto, prefiere el bloqueo del proveedor a una solución independiente del proveedor. Así vemos la búsqueda continua de estándares de datos de facto. Internet también era un estándar de facto, pero después de treinta años de apoyo federal, se convirtió en un estándar. Sugiero y espero que dichos estándares y software para implementarlos se desarrollen en la década de 2020.

Las leyes de propiedad intelectual se desarrollaron mucho antes de que las tecnologías de la información convirtieran la copia de un producto de información en un bien gratuito. Y como ha observado el historiador Harari, Occidente sólo ha producido un nuevo lema desde “Libertad, Igualdad, Fraternidad” en 1800, y ese nuevo lema es “La información quiere ser libre ” . En el provocativo libro titulado Postcapitalismo, Paul Mason afirma que la creciente variedad de bienes "gratuitos" socavará el mecanismo de precios de mercado del capitalismo y que las únicas opciones para nuestro futuro económico son el monopolio y los datos bloqueados o los bienes gratuitos y nuevos mecanismos. En la comprensión de los medios, el status quo siempre busca suprimir el potencial revolucionario de una nueva tecnología. Por tanto, habrá un cabildeo continuo y vigoroso en apoyo del statu quo. Pero las sociedades que hacen un uso completo de la información a través de la vía de la copia gratuita pueden ser las sociedades exitosas del futuro.¿ Quién es el dueño del futuro? ya que el público regala su información a cambio de servicios gratuitos más anuncios. Me atrevería a aventurar que para finales de la década de 2020 o principios de la de 2030, al menos algunas sociedades se habrán decidido a favor del libre acceso y en contra de los monopolios. Uno de los beneficiarios de tal decisión será OS.

Como se mencionó anteriormente, cuando los científicos adopten el sistema operativo, la meseta de la productividad estará sobre nosotros y es posible que descubramos que crea una revolución científica tan profunda como la del siglo XVII al acelerar el descubrimiento científico.

Pero la pregunta sigue siendo: ¿ qué científicos harán el abrazo? Como se mencionó anteriormente, será una nueva generación de científicos quienes comprenderán el valor de compartir más los resultados y que también serán recompensados por su participación en el OS.

Una anécdota. Durante las últimas dos décadas, los investigadores de la Biblioteca Nacional de Medicina de EE. UU. Desarrollaron una superposición de conocimientos experimentales para su popular base de datos Medline, que contiene los títulos y resúmenes de unos treinta millones de artículos de investigación biomédica. La superposición, llamada Semantic Medline , permitió a los investigadores conectar artículos de una manera novedosa y, por lo tanto, descubrir respuestas a preguntas científicas que se "distribuyeron" en varios artículos. Como ejemplo, consideraron la pregunta científica de larga data: "¿La disminución de la testosterona en los hombres mayores ayuda a explicar sus crecientes problemas de sueño?" Una búsqueda muy simple de Semantic Medline conectó un artículo que muestra que la testosterona es un inhibidor de la cortisona con otro artículo que muestra que la cortisona es un perturbador del sueño. Este nuevo modo de hacer ciencia conectando los puntos en la literatura existente será muy importante a medida que el SO madure.

Esta anécdota tiene una conclusión decepcionante. Cuando se mostró Semantic Medline a los científicos principales de los Institutos Nacionales de Salud (NIH), me dijeron que " tomaron la noticia con calma". La audiencia real de Semantic Medline eran los postdoctorados, que tomarían las noticias con entusiasmo y pronto publicarían resultados que la generación anterior no podría emprender. Han dicho que la generación que estaba acostumbrada a los caballos y el carruaje nunca se sintió completamente cómoda con el carruaje sin caballos. Como octogenario, me duele decir que muchos de los científicos mayores de hoy en día tal vez nunca se sientan completamente cómodos con una cultura de intercambio y SO más amplios.

Fuente: Data Intelligence
En: https://www.mitpressjournals.org/doi/full/10.1162/dint_a_00081

Enlaces de Interés