Google presenta Smart Scrolling, una nueva función basada en ML para su app de grabación Recorder

Navegar fácilmente por las transcripciones de la grabadora con desplazamiento inteligente
El año pasado Google lanzó Recorder , un nuevo tipo de aplicación de grabación que hizo que la grabación de audio fuera más inteligente y más útil al aprovechar el aprendizaje automático (ML) en el dispositivo para transcribir la grabación, resaltar eventos de audio y sugerir etiquetas apropiadas para títulos. Recorder facilita la edición, el intercambio y la búsqueda a través de transcripciones. Sin embargo, dado que Recorder puede transcribir grabaciones muy largas (¡hasta 18 horas!), Aún puede ser difícil para los usuarios encontrar secciones específicas, lo que requiere una nueva solución para navegar rápidamente por transcripciones tan largas.
Para aumentar la navegabilidad del contenido, presentamos Smart Scrolling, una nueva función basada en ML en Recorder que marca automáticamente las secciones importantes en la transcripción, elige las palabras clave más representativas de cada sección y luego las muestra en la barra de desplazamiento vertical, como capítulo. encabezados. Luego, el usuario puede desplazarse por las palabras clave o tocarlas para navegar rápidamente a las secciones de interés. Los modelos utilizados son lo suficientemente livianos para ejecutarse en el dispositivo sin la necesidad de cargar la transcripción, preservando así la privacidad del usuario.
La función de desplazamiento inteligente se compone de dos tareas distintas. El primero extrae palabras clave representativas de cada sección y el segundo elige qué secciones del texto son las más informativas y únicas.
Para cada tarea, utilizamos dos enfoques diferentes de procesamiento del lenguaje natural (NLP): un modelo de transformador bidireccional destilado (BERT) entrenado previamente con datos provenientes de un conjunto de datos de Wikipedia , junto con un término de extracción modificado frecuencia-frecuencia inversa de documentos (TF-IDF) modelo. Al utilizar el transformador bidireccional y los modelos basados en TF-IDF en paralelo tanto para la extracción de palabras clave como para las tareas de identificación de secciones importantes, junto con la heurística de agregación, pudimos aprovechar las ventajas de cada enfoque y mitigar sus respectivos inconvenientes (más sobre esto en la siguiente sección).
El transformador bidireccional es una arquitectura de red neuronal que emplea un mecanismo de auto atención para lograr el procesamiento consciente del contexto del texto de entrada de una manera no secuencial. Esto permite el procesamiento paralelo del texto de entrada para identificar pistas contextuales tanto antes como después de una posición determinada en la transcripción.
El enfoque extractivo TF-IDF califica los términos en función de su frecuencia en el texto en comparación con su frecuencia inversa en el conjunto de datos entrenado, y permite encontrar términos representativos únicos en el texto.
Ambos modelos se entrenaron en conjuntos de datos conversacionales disponibles públicamente que fueron etiquetados y evaluados por evaluadores independientes. Los conjuntos de datos conversacionales procedían de los mismos dominios que los casos de uso de productos esperados, centrándose en reuniones, conferencias y entrevistas, lo que garantiza la misma distribución de frecuencia de palabras ( ley de Zipf ).
Extracción de palabras clave representativas
El modelo basado en TF-IDF detecta palabras clave informativas dando a cada palabra una puntuación, que corresponde a la representatividad de esta palabra clave dentro del texto. El modelo lo hace, al igual que un modelo TF-IDF estándar, utilizando la relación entre el número de apariciones de una palabra dada en el texto en comparación con el conjunto de datos conversacionales, pero también tiene en cuenta la especificidad de la término, es decir, qué tan amplio o específico es. Además, el modelo agrega estas características en una puntuación utilizando una curva de función previamente entrenada. Paralelamente, el modelo de transformador bidireccional, que se afinó en la tarea de extraer palabras clave, proporciona una comprensión semántica profunda del texto, lo que le permite extraer palabras clave precisas y sensibles al contexto.
El enfoque TF-IDF es conservador en el sentido de que es propenso a encontrar palabras clave poco comunes en el texto (alto sesgo), mientras que el inconveniente del modelo de transformador bidireccional es la alta varianza de las posibles palabras clave que se pueden extraer. Pero cuando se usan juntos, estos dos modelos se complementan entre sí, formando una compensación equilibrada entre sesgo y varianza.
Una vez que se recuperan las puntuaciones de las palabras clave de ambos modelos, las normalizamos y combinamos utilizando heurísticas de PNL (p. Ej., El promedio ponderado), eliminando los duplicados en las secciones y eliminando las palabras vacías y los verbos. El resultado de este proceso es una lista ordenada de palabras clave sugeridas para cada una de las secciones.
Calificación de la importancia de una sección La siguiente tarea es determinar qué secciones deben resaltarse como informativas y únicas. Para resolver esta tarea, nuevamente combinamos los dos modelos mencionados anteriormente, que arrojan dos puntajes de importancia distintos para cada una de las secciones. Calculamos el primer puntaje tomando los puntajes TF-IDF de todas las palabras clave en la sección y poniéndolos por su número respectivo de apariciones en la sección, seguido de una suma de estos puntajes de palabras clave individuales. Calculamos la segunda puntuación ejecutando el texto de la sección a través del modelo de transformador bidireccional, que también se entrenó en la tarea de clasificación de secciones. Las puntuaciones de ambos modelos se normalizan y luego se combinan para producir la puntuación de la sección.
Algunos desafíos
Un desafío importante en el desarrollo de Smart Scrolling fue cómo identificar si una sección o palabra clave es importante: lo que es de gran importancia para una persona puede ser menos importante para otra. La clave fue resaltar las secciones solo cuando sea posible extraer palabras clave útiles de ellas.
Para hacer esto, configuramos la solución para seleccionar las secciones mejor calificadas que también tienen palabras clave altamente calificadas, con el número de secciones resaltadas proporcionalmente a la duración de la grabación. En el contexto de las funciones de Smart Scrolling, una palabra clave se calificaba mejor si representaba mejor la información única de la sección.
Para entrenar el modelo para comprender estos criterios, necesitábamos preparar un conjunto de datos de entrenamiento etiquetado adaptado a esta tarea. En colaboración con un equipo de calificadores calificados, aplicamos este objetivo de etiquetado a un pequeño lote de ejemplos para establecer un conjunto de datos inicial con el fin de evaluar la calidad de las etiquetas e instruir a los calificadores en los casos en los que hubo desviaciones de lo que se pretendía. Una vez que se completó el proceso de etiquetado, revisamos los datos etiquetados manualmente e hicimos las correcciones necesarias a las etiquetas para alinearlas con nuestra definición de importancia.
Utilizando este conjunto de datos etiquetado limitado, ejecutamos evaluaciones de modelos automatizadas para establecer métricas iniciales sobre la calidad del modelo, que se utilizaron como un proxy menos preciso de la calidad del modelo, lo que nos permitió evaluar rápidamente el rendimiento del modelo y aplicar cambios en la arquitectura y la heurística. Una vez que las métricas de la solución fueron satisfactorias, utilizamos un proceso de evaluación manual más preciso sobre un conjunto cerrado de ejemplos cuidadosamente seleccionados que representaban los casos de uso esperados de Recorder. Usando estos ejemplos, ajustamos los parámetros heurísticos del modelo para alcanzar el nivel deseado de desempeño usando una evaluación de calidad del modelo confiable.
Mejoras en el tiempo de ejecución
Después del lanzamiento inicial de Recorder, realizamos una serie de estudios de usuarios para aprender cómo mejorar la usabilidad y el rendimiento de la función Smart Scrolling. Descubrimos que muchos usuarios esperan que las palabras clave de navegación y las secciones resaltadas estén disponibles tan pronto como finalice la grabación. Debido a que la tubería de cálculo descrita anteriormente puede llevar una cantidad considerable de tiempo para computar en grabaciones largas, diseñamos una solución de procesamiento parcial que amortiza este cálculo durante toda la duración de la grabación. Durante la grabación, cada sección se procesa tan pronto como se captura y luego los resultados intermedios se almacenan en la memoria. Cuando finaliza la grabación, Recorder agrega los resultados intermedios.
Cuando se ejecuta en un Pixel 5, este enfoque redujo el tiempo de procesamiento promedio de una grabación de una hora (~ 9K palabras) de 1 minuto 40 segundos a solo 9 segundos, mientras se obtienen los mismos resultados.
Resumen El objetivo de Recorder es mejorar la capacidad de los usuarios para acceder a su contenido grabado y navegar por él con facilidad. Ya hemos logrado un progreso sustancial en esta dirección con las funciones de aprendizaje automático existentes que sugieren automáticamente las palabras del título para las grabaciones y permiten a los usuarios buscar grabaciones en busca de sonidos y texto. Smart Scrolling proporciona capacidades de navegación de texto adicionales que mejorarán aún más la utilidad de Recorder, permitiendo a los usuarios mostrar rápidamente secciones de interés, incluso para grabaciones largas.