Quantitative linguistics in the large language models era: the study of semanticity in Catalan
Accés obert
 
28 de nov. 2023
22 visualitzacions
 
Neus Català
Bernardino Casas
Antonio Hernández Fernández

In the era of Large Language Models (like ChatGPT or Google BARD), the field of computational linguistics faces a pressing challenge: bridging the gap between theoretical linguistic models and the transformative capabilities of network models, particularly transformer-based models. A long-standing understanding within linguistics is that the frequency of words within semantic networks is closely linked to their meanings and syntactic functions, a concept dating back to the earliest models in quantitative linguistics and connectionist models. However, the training data for large language models diverges significantly from the conventional acquisition of human languages. This disparity underscores the importance of delving into new models and quantitative linguistic principles and the so-called “Linguistic laws”: these are statistical patterns that hold true in human languages and other communication systems, analogous to the statistical laws of physics. For example, G. K. Zipf formulated a couple of statistical laws on the relationship between the frequency of a word with its number of meanings: the law of meaning distribution, relating the frequency of a word and its frequency rank, and the meaning-frequency law, relating the frequency of a word with its number of meanings. In light of this, we recently introduce a novel concept called ”semanticity” which establishes a connection between a word’s potential meanings and its position within the linguistic network. To explore this notion, we conduct a comprehensive analysis of Catalan using extensive oral and written corpora, leveraging the resources of the official dictionary (DIEC2). Our findings reveal that the semanticity of words provides a straightforward classification for content and function words and for various word types in Catalan, allowing for the integration of both their semantic and syntactic attributes within this single parameter. Ultimately, we present the potential and limitations of this linguistic property and advocate for the examination of semanticity in other languages. This endeavor aims to forge new connections between the realms of computational and theoretical linguistics, ushering in a new era of linguistic exploration and understanding.

 
Llicència: Reconocimiento-NoComercial-SinObraDerivada 3.0 España (CC BY-NC-ND 3.0 ES)
 

Vídeos de la mateixa sèrie

Quantitative linguistics in the large language models era: the study of semanticity in Catalan

Accés obert
28 de nov. 2023
In the era of Large Language Models (like ChatGPT or Google BARD), the field of computational linguistics faces a pressing challenge: bridging the gap between theoretical linguistic models and the transformative capabilities of network models, particularly transformer-based models. A long-standing understanding within linguistics is that the frequency of words within semantic networks is closely linked to their meanings and syntactic functions, a concept dating back to the earliest models in quantitative linguistics and connectionist models. However, the training data for large language models diverges significantly from the conventional acquisition of human languages. This disparity underscores the importance of delving into new models and quantitative linguistic principles and the so-called “Linguistic laws”: these are statistical patterns that hold true in human languages and other communication systems, analogous to the statistical laws of physics. For example, G. K. Zipf formulated a couple of statistical laws on the relationship between the frequency of a word with its number of meanings: the law of meaning distribution, relating the frequency of a word and its frequency rank, and the meaning-frequency law, relating the frequency of a word with its number of meanings. In light of this, we recently introduce a novel concept called ”semanticity” which establishes a connection between a word’s potential meanings and its position within the linguistic network. To explore this notion, we conduct a comprehensive analysis of Catalan using extensive oral and written corpora, leveraging the resources of the official dictionary (DIEC2). Our findings reveal that the semanticity of words provides a straightforward classification for content and function words and for various word types in Catalan, allowing for the integration of both their semantic and syntactic attributes within this single parameter. Ultimately, we present the potential and limitations of this linguistic property and advocate for the examination of semanticity in other languages. This endeavor aims to forge new connections between the realms of computational and theoretical linguistics, ushering in a new era of linguistic exploration and understanding.

Definir la creatividad en la era digital

Accés obert
28 de nov. 2023
Este estudio aborda los diferentes tipos de creatividad que pueden surgir en la era digital, explorando su relación con el lenguaje, la biología, la tecnología y la interacción social. Se examinan cuestiones fundamentales relacionadas con la creatividad humana en un contexto tecnológico en constante evolución, y en el que la irrupción de las herramientas de inteligencia artificial (IA) generativa plantea muchos dilemas filosóficos y teóricos. Para empezar, se propone una clasificación de los tipos de creatividad. La creatividad ha estado históricamente ligada al lenguaje, ya sea oral, gestual o corporal, y a la tecnología. Sin embargo, en la era digital, se plantea la posibilidad de un tipo de creatividad que no depende necesariamente de estos factores, ni del ser humano. Se analiza la noción de ”creatividad biológica” como un proceso interno que se da de manera programada una vez que la vida está en marcha, contrapuesta a la ”creatividad artificial”. La creatividad biológica se relaciona con las experiencias mentales, inmateriales y las creaciones internas que surgen en las sinapsis del cerebro. Estas ideas e imaginaciones, a menudo denominadas ”virtuales”, pueden considerarse una manifestación de la creatividad puramente biológica. Pero, ¿se necesita control y voluntad creadora para que se pueda hablar de creatividad? ¿Pueden ser creativas las máquinas? Por otro lado, se señala que la creatividad perceptible, evidente para los demás, es inherentemente social, lingüística o tecnológicamente mediada. Requiere la comunicación y la exteriorización de las creaciones internas para que se manifieste. En este sentido, se argumenta que la creatividad solo puede darse plenamente cuando las creaciones se comparten con otros y se convierte así en un proceso colectivo. Para que la creatividad sea reconocida y exista fuera del individuo, es esencial la comunicación social y por tanto la interacción lingüística. La tecnología desempeña un papel crucial en la creatividad en la era digital, análogo al de otras épocas. En este contexto, se destaca la relación compleja entre la biosemiótica y la tecnosemiótica en la generación de las creaciones y de lo considerado creativo. Además, se valora la posibilidad de que procesos biológicos, como las recombinaciones genéticas aleatorias, que dan lugar a la variabilidad en la reproducción sexual, puedan generar resultados aparentemente creativos. Estos procesos, que anteriormente escapaban al control humano, ahora pueden modificarse mediante biotecnologías. Esto plantea preguntas importantes sobre los límites éticos de la creatividad y hasta dónde se puede influir en los procesos biológicos naturales de forma ’creativa’. En conclusión, este estudio plantea un análisis teórico de la creatividad y aborda la complejidad de la creatividad en la era digital, considerando su relación con el lenguaje, la biología, la tecnología y la interacción social. Se plantean preguntas sobre la naturaleza de la creatividad, su intencionalidad y los límites de la influencia humana en los procesos creativos. La investigación en este ámbito contribuye a una comprensión más profunda de la creatividad en un mundo cada vez más digitalizado, donde la IA generativa ha democratizado la generación automática de creaciones artísticas que, no obstante, ¿son realmente creativas?

¿Aplicaciones que desnudan? Tecnoética y educación en el uso de la inteligencia artificial generativa

Accés obert
28 de nov. 2023
El pasado septiembre, en el retorno del curso escolar en España, fue noticia la circulación ilícita de imágenes de un grupo de menores, niñas de entre 11 y 17 años, ‘desnudadas’ por una aplicación de inteligencia artificial. Otros menores de edad, en su mayoría, fueron los que crearon y posteriormente difundieron aquellas imágenes. Además de vulnerar las leyes de España y de la UE en materia de protección de datos, así como el derecho fundamental al honor y a la propia imagen de las menores, se trataba de pornografía infantil. De hecho, strictu sensu, se debe hablar en este caso de morphing o “pseudopornografía infantil”, según la legislación vigente, pues no se utilizó realmente a las menores sino que se abusó de su imagen manipulándola mediante artificios técnicos. Este no ha sido, ni será, un hecho aislado ni local. Mucho antes de la irrupción de estas herramientas de IA ya se habían filtrado en otras ocasiones, por ejemplo, imágenes o vídeos de desnudos de celebrities, principalmente mujeres, pues el ciber abuso, en sus múltiples manifestaciones, sigue afectando principalmente a la mujer. Y si bien es cierto que con los medios tecnológicos digitales de antaño se podían lograr los mismos efectos que con las IAs generativas actuales, también lo es que hacerlo entonces entrañaba bastante tiempo y trabajo, pues poseía una complejidad técnica al alcance de pocos: ahora, en solo unos segundos, se puede proporcionar una imagen o un video a una aplicación y obtener desnudos o pornografía, en un nivel que se ha denominado ‘deep fake’, en el que cuesta distinguir la falsedad del elemento generado. En este trabajo se muestran ejemplos de imágenes de desnudos, modificadas mediante inteligencia artificial, que permiten analizar tanto sobre los sesgos de entrenamiento de las herramientas libres de modificación de imagen, como reflexionar sobre las implicaciones tecnoéticas de estas prácticas. No se muestran imágenes gratuitas ni que vulneren ningún aspecto legal, en cuanto se ha trabajado con obras generadas mediante inteligencia artificial, sin impacto real sobre personas reales, y respetando los derechos de autor. Se plantea, finalmente, un enfoque pedagógico, una propuesta práctica basada en las recomendaciones de organizaciones reconocidas como UNESCO o OEIAC, que permita al profesorado, desde la acción tutorial, trabajar en el aula la prevención de conductas ilícitas, inmorales e incívicas, así como los aspectos éticos fundamentales que prevengan los usos deshonestos de herramientas de acceso abierto de inteligencia artificial generativa.